시스템

대시보드의 시스템 메뉴는 관리자 시스템 전체의 상태를 실시간으로 모니터링하는 메뉴입니다.

클러스터 전체의 CPU 사용률, 메모리 사용률, GPU 평균 전력 소비량(W), 파일 시스템 사용량을 실시간으로 시각화하여 전체 인프라 리소스의 부하 상태를 시각화하여 보여줍니다.
현재, 하루 , 한 주로 기간을 선택하여 조회 가능합니다.
- Cluster CPU Usage: 전체 클러스터 노드들의 평균 CPU 사용률(%). 성능 저하 징후나 부하 상태를 빠르게 파악 가능.
- Cluster Memory Usage: 클러스터 메모리 사용률(%). 전체 가용 메모리 대비 사용량을 추적하여 메모리 병목 상태를 사전에 감지.
- GPU Power Usage (AVG): GPU 디바이스들의 평균 전력 소비량(Watt). 고부하 트레이닝이 지속될 때 GPU 사용 효율성 및 전력 관련 이슈 파악 가능.
- Cluster Filesystem: 전체 파일시스템의 사용률. 로그, 모델, 데이터 저장 영역이 포화되는 상황에 대한 사전 경고 지표 역할.

클러스터에 포함된 각 노드의 기본 정보 및 상태를 표 형태로 제공하며, 개별 노드의 부하나 이상 여부를 모니터링할 수 있습니다.
특정 노드에 자원이 몰리는 경우 또는 장애 발생 시 해당 노드를 빠르게 식별하고, 수동 제어 또는 재기동을 위한 기준으로 사용됩니다.
- nodename / instances: 각 노드의 이름과 IP 주소. 클러스터에 포함된 물리/가상 서버 식별.
- OS / Version / Release: 노드의 운영체제 종류, 커널 버전, 릴리즈 정보. 운영 체제 호환성과 패치 관리 참고용.
- CPU Usage / MEM Usage: 각 노드의 현재 CPU 및 메모리 사용률(%). 노드 간 자원 부하를 비교 분석하여 불균형 감지 가능.

클러스터 내 실행 중인 파드들의 이름, 리소스 제한값(CPU/메모리), 생성 방식 등을 확인하여 파드 구성 및 리소스 배포 상태를 파악할 수 있습니다.
애플리케이션 컨테이너의 정상 작동 여부 및 재시작이 잦은 문제성 파드를 식별하여 빠르게 조치할 수 있습니다.
- Pod: 클러스터 내 실행 중인 파드 이름 전체 리스트.
- created_by_kind: 해당 파드가 어떤 리소스(ReplicaSet 등)에 의해 생성되었는지 표시. 배포 구조 추적 가능.
- CPU Limit / MEM Limit: 각 파드에 설정된 자원 제한값. 과도하게 설정된 파드를 식별해 최적화 또는 리밸런싱 필요 여부 판단 가능.

각 GPU 디바이스별 메모리 사용량(MB 단위)과 연결된 노드 식별자를 시각적으로 제공하여, GPU 자원 사용 상태를 실시간으로 점검할 수 있습니다.
- GPU Memory Usage: GPU 장치별 사용 메모리(MB 단위). 실시간 게이지 및 수치 제공.

클러스터의 송수신 네트워크 트래픽 변동을 시간축 기반 그래프로 시각화하여, 네트워크 부하나 병목 구간을 식별할 수 있습니다.
- Network I/O Pressure: 클러스터 전체의 입출력 트래픽을 초당 단위로 시각화한 그래프. 송수신 대역폭 수준을 실시간 파악 가능
- 시간 축 기반 그래프: 트래픽 변동이 시간축에 따라 표시됨. 급격한 트래픽 상승 구간, 병목 지점 식별에 유리.

파드 배포, 컨테이너 이미지 처리, 실행 성공/실패 등의 시스템 이벤트 로그를 시간순으로 나열하여, 운영 중 발생한 이벤트 흐름과 이상 원인을 파악할 수 있습니다.
- 이벤트 로그: 클러스터 내 컨테이너 배포, 이미지 풀, 실행, 종료 등의 상태 변화 메시지를 시간순으로 나열.
- 예시 로그: Successfully assigned, Started container, Image already present, Created container, 등.
- 로그 유형: 대부분 INFO 수준의 배포성 로그이나, 에러 발생 시에도 표출 가능.

Last updated 10 days ago

Was this helpful?