32MB、64MBのメモリを買うために、電気街に行ったことがありますか?
インテルの創業者ゴードン・ムーアの話のように、数十年にわたりハードウェアの性能は指数関数的に進化してきました。その結果、最近ではCPU、メモリ、ディスクは価格に対する性能がとても高くなり、ハードウェアの価格が全体的に下落しているため、企業のコンピューティングパワーが実際の必要以上に構成されているケースをよく見かけます。
ChatGPTの登場以来、私たちはこれまで以上に技術が急速に進化していることを実感しています。最新のニュースやカンファレンスでは、AIに関連する情報が大半を占めており、多くの企業がAIサービスを開発、自社のサービスに適用するために努力しています。
AI時代において、GPUは不可欠なリソースとなりましたが、他の機器に比べて著しく高価なため、より効率的な使用のためのポリシーと解決策の必要性が高まっています。
WhaTapでは、市場からのニーズを汲み取り、Server MonitoringおよびKubernetes MonitoringにアドインできるGPUモニタリング機能をリリースしました。これにより、高価なGPUが適切に活用されているか、問題が発生してはいないかをリアルタイムで確認できます。
もちろん、Kubernetes環境を提供するプラットフォームやGPUリソースを提供する一部のベンダーでも、GPUの状態が確認できる基本的な機能が提供されています。
これに対して、WhaTapのGPUモニタリングはどのように違うでしょうか?
大規模なGPUファームを構成し、組織や人員に割り当てている場合、これらのGPUを監視するためのリソース管理システムが必要です。WhaTapはServer MonitoringにアドインできるGPUインベントリ機能を提供します。
このように、GPUの状態や利用状況がひと目で確認できます。また、Kubernetes MonitoringからでもGPUインベントリ機能がアドインできます。
💡 MIG (マルチインスタンスGPU): 1つのGPUを複数の独立した仮想GPUインスタンスに分け、さまざまなワークロードを同時に実行できる技術
GPUの利用率のばらつきや特定ワークロードのボトルネック、負荷区間を把握し、リソースを再配置することでコスト削減と可用性を確保する必要があります。WhaTap Server MonitorinではMIG環境に対応し、リアルタイムに主要指標を収集し、GPU状態と使用状況が迅速に確認できます。
WhaTap Kubernetes MonitoringにアドインしたGPUダッシュボードでは、GPUが割り当てられたノード、Pod、GPU(MIG)に関する全般的な情報を可視化します。GPUの状態や利用率がGPUマップから確認でき、GPUと関連した全てのリソース状況がリアルタイムで確認できます。
数多くの指標を一つ一つ確認しなくても問題の原因が迅速に把握できるようにします。断片的な数値を並べるだけではなく、ハードウェアからアプリケーションまで全体的に連携分析できます。例えば、WhaTap Kubernetes MonitoringのコンテナマップからはGPU利用状況を反映したコンテナ状態が視覚化できます。また、APM機能が導入されている場合なら、アプリケーションレベルまでまとめて確認することができます。
NVIDIA GPUから収集できるデータはとても多いです。
GPU利用率やメモリ使用率などの主な指標はダッシュボードから基本として表示しますが、組織や運用目的によっては確認したい指標が異なることもあります。WhaTap Monitoringのメトリクスエクスプローラーからは必要な指標を選択して表示し、相関性などを迅速に分析することができます。
クラウドやハイパーバイザーで1台のサーバーを複数のVMに分割できるように、GPUにおいてもMIG機能を通じて論理的に分割して活用する事例が増えています。リソースを効率的に使用するためには、まず現状が正確に把握できるデータと可視性が必要です。WhaTapは高価なGPUを適切に活用できるように、モニタリングと分析機能を持続的に向上していく予定です。