Show HN: Utilyze — nvtopより正確なオープンソースGPU監視ツール
TL;DR
- Systalyzeがオープンソース化したUtilyzeは、ハードウェアパフォーマンスカウンタを直接読み取り、真のコンピュートおよびメモリ帯域幅使用率を誤差2%以内で報告するGPUモニタ。
ポイント
- nvtopは行列サイズに関わらず100%を示し続けるが、UtilizeはN=256で2.6%、N=1024で32%、N=4096で88%を表示し、理論値と2%以内で一致する。
- DCGMのSM Activeメトリクスも誤解を招く:メモリバウンドなLLMデコードワークロードでSM Activeが99%、nvtopが100%を示す一方、グランドトゥルースとUtilizeはともに6%を報告する。
- UtilizeはNVIDIAのNsight Perf SDKを使用してローリングタイムウィンドウ内でハードウェアカウンタを順に取得するため、オーバーヘッドはほぼゼロで本番環境でも継続的に計測できる。
- 報告する主要指標は2つ:Compute SOL%(実測FLOPs / ピークFLOPs)とMemory SOL%(実測帯域幅 / ピーク帯域幅)で、rooflineモデルに基づく。
- Attainable SOL%は、特定のモデル・ハードウェア・並列化構成における現実的な上限(100%未満)を示す。現在のSOL%とAttainable SOL%の差が、実際の最適化余地となる。
Hacker Newsコメントまとめ
- v0.1.3はコンピュート可視化の面では評価が高いが、nvidia-smiが提供するプロセス一覧、メモリ使用量、温度、ファン回転数が未対応との指摘があり、日常的な代替ツールとしての実用性に課題が残る。
注目コメント
- @xtimecrystal:日常ワークフローでnvidia-smiを完全に置き換えるには、メモリ使用量・プロセス一覧・温度・ファン回転数の追加が必要と要望。
英語版: Show HN: Utilyze – an open source GPU monitoring tool more accurate than nvtop · Original source