NVIDIA의 Multi-Instance GPU(MIG) 기술은 단일 GPU를 여러 개의 독립적인 인스턴스로 분할하여 효율적인 리소스 활용을 가능하게 합니다. 하지만 MIG 모드에서는 전통적인 GPU 사용률 모니터링에 제약이 있습니다. 이 글에서는 MIG 환경에서의 GPU 모니터링 문제점과 DCGM_FI_PROF_GR_ENGINE_ACTIVE를 활용한 해결책을 제시합니다.
NVIDIA 공식 문서에 따르면, MIG 모드가 활성화된 GPU에서는 전통적인 GPU 사용률(utilization) 메트릭이 지원되지 않습니다.
NVIDIA MIG 사용자 가이드에서도 이러한 제약사항을 명시하고 있습니다:
"GPU utilization is not supported when MIG mode is enabled"
여기에서 딜레마가 발생합니다.
다음과 같은 시나리오를 생각해보겠습니다:
이런 환경에서 노드의 평균 GPU 사용률을 계산하려면 어떻게 해야 할까요? MIG 모드가 활성화된 4개의 GPU는 N/A로 표시되므로, 이를 제외하고 물리 디바이스 4개만으로 계산해야 할까요?
MIG 인스턴스별 사용률 계산 방법
MIG 모드에서도 정확한 GPU 사용률을 측정할 수 있는 방법이 있습니다. 바로 DCGM_FI_PROF_GR_ENGINE_ACTIVE 메트릭을 활용하는 것입니다.
계산 공식
전체 GPU 사용률 = Σ(각 MIG 인스턴스 사용률 × 해당 인스턴스의 리소스 비율)
예시:MIG A (2g.10gb): 60% × (2/7) = 17.14%MIG B (1g.5gb): 90% × (1/7) = 12.86%MIG C (1g.5gb): 40% × (1/7) = 5.71%MIG D (1g.5gb): 20% × (1/7) = 2.86%MIG E (1g.5gb): 70% × (1/7) = 10.0%MIG F (1g.5gb): 10% × (1/7) = 1.43%
총 GPU 사용률: 50%
이러한 접근 방식은 명확한 기술적 근거를 바탕으로 합니다. DCGM_FI_PROF_GR_ENGINE_ACTIVE 메트릭 선정과 가중치 계산 방법론 모두 NVIDIA의 공식 문서와 권장사항에 기반하고 있습니다.
대체 메트릭 사용, 계산 방법론에 대한 근거를 차례로 설명드리겠습니다.
1. 대체 메트릭 사용 근거: NVIDIA GitHub 공식 답변
근거 출처: NVIDIA DCGM GitHub 이슈 #64
NVIDIA 개발자의 공식 답변:
"DCGM_FI_DEV_GPU_UTIL is roughly equal to DCGM_FI_PROF_GR_ENGINE_ACTIVE. DCGM_FI_PROF_GR_ENGINE_ACTIVE is higher precision and works on MIG."
이 답변은 왜 DCGM_FI_PROF_GR_ENGINE_ACTIVE를 GPU 사용률의 대체 지표로 사용할 수 있는지에 대한 공식적인 근거를 제공합니다.
GR_ENGINE_ACTIVE의 특징
2. 가중치 계산 방식 근거: NVIDIA DCGM 공식 문서
근거 출처: NVIDIA DCGM- Understanding Metrics
NVIDIA DCGM 공식 문서에서 제시하는 메트릭 이해를 바탕으로 MIG 인스턴스별 사용률을 가중치 계산하여 디바이스 단위로 변환하는 방법론을 도출할 수 있습니다.
계산 방법론
1) 기본 계산 공식
전체 GPU 사용률 = Σ(각 MIG 인스턴스의 GR_ENGINE_ACTIVE × 해당 인스턴스의 컴퓨트 슬라이스 비율)
2) 상세 계산 과정
각 MIG 인스턴스에 대해:
Instance_Utilization = DCGM_FI_PROF_GR_ENGINE_ACTIVE
(0.0 ~ 1.0)Slice_Ratio = Instance_Compute_Slices / Total_GPU_Compute_Slices
Weighted_Contribution = Instance_Utilization × Slice_Ratio
3) 실제 계산 예시
A100 GPU (총 8개 컴퓨트 슬라이스)에서:
총 GPU 사용률 = 0.1714 + 0.1286 + 0.0571 + 0.0286 + 0.1000 + 0.0143 = 0.5000 (50.0%)
4) 메트릭 해석 (DCGM 공식 문서 기준)
5) 실무 적용 시 고려사항
MIG 모드에서의 GPU 모니터링은 두 가지 핵심 근거를 바탕으로 해결할 수 있습니다: