시스템

대시보드의 시스템 메뉴는 관리자 시스템 전체의 상태를 실시간으로 모니터링하는 메뉴입니다.

클리스터 리소스

  • 클러스터 전체의 CPU 사용률, 메모리 사용률, GPU 평균 전력 소비량(W), 파일 시스템 사용량을 실시간으로 시각화하여 전체 인프라 리소스의 부하 상태를 시각화하여 보여줍니다.

  • 현재, 하루 , 한 주로 기간을 선택하여 조회 가능합니다.

    • Cluster CPU Usage: 전체 클러스터 노드들의 평균 CPU 사용률(%). 성능 저하 징후나 부하 상태를 빠르게 파악 가능.

    • Cluster Memory Usage: 클러스터 메모리 사용률(%). 전체 가용 메모리 대비 사용량을 추적하여 메모리 병목 상태를 사전에 감지.

    • GPU Power Usage (AVG): GPU 디바이스들의 평균 전력 소비량(Watt). 고부하 트레이닝이 지속될 때 GPU 사용 효율성 및 전력 관련 이슈 파악 가능.

    • Cluster Filesystem: 전체 파일시스템의 사용률. 로그, 모델, 데이터 저장 영역이 포화되는 상황에 대한 사전 경고 지표 역할.

서버 정보

  • 클러스터에 포함된 각 노드의 기본 정보 및 상태를 표 형태로 제공하며, 개별 노드의 부하나 이상 여부를 모니터링할 수 있습니다.

  • 특정 노드에 자원이 몰리는 경우 또는 장애 발생 시 해당 노드를 빠르게 식별하고, 수동 제어 또는 재기동을 위한 기준으로 사용됩니다.

    • nodename / instances: 각 노드의 이름과 IP 주소. 클러스터에 포함된 물리/가상 서버 식별.

    • OS / Version / Release: 노드의 운영체제 종류, 커널 버전, 릴리즈 정보. 운영 체제 호환성과 패치 관리 참고용.

    • CPU Usage / MEM Usage: 각 노드의 현재 CPU 및 메모리 사용률(%). 노드 간 자원 부하를 비교 분석하여 불균형 감지 가능.

파드 정보

  • 클러스터 내 실행 중인 파드들의 이름, 리소스 제한값(CPU/메모리), 생성 방식 등을 확인하여 파드 구성 및 리소스 배포 상태를 파악할 수 있습니다.

  • 애플리케이션 컨테이너의 정상 작동 여부 및 재시작이 잦은 문제성 파드를 식별하여 빠르게 조치할 수 있습니다.

    • Pod: 클러스터 내 실행 중인 파드 이름 전체 리스트.

    • created_by_kind: 해당 파드가 어떤 리소스(ReplicaSet 등)에 의해 생성되었는지 표시. 배포 구조 추적 가능.

    • CPU Limit / MEM Limit: 각 파드에 설정된 자원 제한값. 과도하게 설정된 파드를 식별해 최적화 또는 리밸런싱 필요 여부 판단 가능.

GPU 메모리 정보

  • 각 GPU 디바이스별 메모리 사용량(MB 단위)과 연결된 노드 식별자를 시각적으로 제공하여, GPU 자원 사용 상태를 실시간으로 점검할 수 있습니다.

    • GPU Memory Usage: GPU 장치별 사용 메모리(MB 단위). 실시간 게이지 및 수치 제공.

네트워크 I/O 정보

  • 클러스터의 송수신 네트워크 트래픽 변동을 시간축 기반 그래프로 시각화하여, 네트워크 부하나 병목 구간을 식별할 수 있습니다.

    • Network I/O Pressure: 클러스터 전체의 입출력 트래픽을 초당 단위로 시각화한 그래프. 송수신 대역폭 수준을 실시간 파악 가능

    • 시간 축 기반 그래프: 트래픽 변동이 시간축에 따라 표시됨. 급격한 트래픽 상승 구간, 병목 지점 식별에 유리.

클러스터 이벤트 정보

  • 파드 배포, 컨테이너 이미지 처리, 실행 성공/실패 등의 시스템 이벤트 로그를 시간순으로 나열하여, 운영 중 발생한 이벤트 흐름과 이상 원인을 파악할 수 있습니다.

    • 이벤트 로그: 클러스터 내 컨테이너 배포, 이미지 풀, 실행, 종료 등의 상태 변화 메시지를 시간순으로 나열.

    • 예시 로그: Successfully assigned, Started container, Image already present, Created container, 등.

    • 로그 유형: 대부분 INFO 수준의 배포성 로그이나, 에러 발생 시에도 표출 가능.

Last updated

Was this helpful?