第9章: 電力、エネルギーおよび熱管理

GPUがきわめて並列的で、プログラム可能なアクセラレータとして進化し、膨大な計算スループットを提供できるようになったため、消費電力と熱出力の管理が非常に重要になってきています。高い電力消費は、モバイルデバイスでのエネルギーコストの増加や電池寿命の短縮につながるだけでなく、確実な動作を維持するためにより高度な冷却ソリューションとパッケージング技術が必要になります。この章では、GPUの電力消費の主な要因、クロックとパワーゲーティング、動的電圧周波数スケーリング(DVFS)、さまざまなGPU冷却ソリューションとパッケージングアプローチについて探っていきます。

GPUの電力消費の主な要因

GPUの消費電力を効果的に管理するためには、電力消散の主な要因を理解することが不可欠です。GPU消費電力は、動的電力と静的電力に大まかに分類できます。

動的電力

動的電力とは、GPUが積極的にデータ処理を行い、命令を実行しているときに消費される電力です。GPUの動的電力消費は、次の式で表すことができます。

P_dynamic = α * C * V^2 * f

ここで:

αはアクティビティ係数で、スイッチングするトランジスタの割合を表します。
Cはスイッチングするトランジスタの総容量です。
Vは電源電圧です。
fは動作周波数です。

この式から、動的電力消費は電源電圧の2乗に比例し、動作周波数に比例することがわかります。したがって、電圧または周波数を下げることで、動的電力消費を大幅に削減できます。

アクティビティ係数αは、実行中の具体的なワークロードおよびGPUコンポーネントの利用状況によって異なります。例えば、GPUコアを忙しく使うコンピュート集約型のワークロードは、メモリバウンドのワークロードに比べてアクティビティ係数が高くなります。### 静的電力

静的電力、またはリークパワーは、GPUがアイドル状態で、データを積極的に処理していない場合でも消費される電力です。静的電力は主にトランジスタのリーク電流に起因し、トランジスタサイズが続々と小さくなるにつれ、総消費電力の重要な要素となっています。

静的電力消費は以下の式で表せます:

P_static = I_leakage * V

ここで:

I_leakage は総リーク電流
V は供給電圧

リーク電流は、トランジスタサイズ、しきい値電圧、温度などの要因に影響されます。トランジスタが小さくなるに従いリーク電流が増加し、静的電力消費が高くなります。さらに、温度が上がるとリーク電流が増え、適切に管理されないと熱暴走につながる正のフィードバックループが生じます。

図9.1は、典型的なGPUにおける動的電力と静的電力の内訳を示しています。

        動的電力 (70%)
       /                  \
      /                    \
     /                      \
    /                        \
   /                          \
  /                            \
 /                              \
/                                \
|----------------------------------|
|                                  |
|         静的電力 (30%)         |
|                                  |
|----------------------------------|

図9.1: 典型的なGPUにおける動的電力と静的電力の内訳

クロックゲーティングとパワーゲーティング

クロックゲーティングとパワーゲーティングは、未使用または待機中のコンポーネントを選択的に無効化することで、GPUの消費電力を削減するために広く使用されている2つの手法です。

クロックゲーティング

クロックゲーティングは、特定のコンポーネントや機能ユニットが使用されていないときにそのクロック信号を無効化する手法です。アイドル中のコンポーネントへのクロック信号供給を防ぐことで、動的消費電力を削減します。不必要なトランジスタの切り替えに伴う電力消費

図9.2は、クロックゲーティングの概念を示しています。

           クロック
             |
             |
             |
             |
             |
         クロックゲーティング
         イネーブル信号
             |
             |
             |
             |
             |
        +---------+
        |         |
        |  ゲート |
        |  クロック|
        |         |
        +---------+
             |
             |
             |
             |
        機能ユニット

図9.2: クロックゲーティングの概念

この例では、クロック信号がGPUの電源管理ユニットによって制御されるイネーブル信号によってゲートされています。機能ユニットが必要ない場合、イネーブル信号が無効になり、クロック信号が機能ユニットに到達しなくなり、動的電力消費が排除されます。

クロックゲーティングは、個別の機能ユニットから全GPU コアや、さらに大きなサブシステムまで、さまざまな粒度で適用できます。細かいクロックゲーティングにより、より詳細な電力消費制御が可能になりますが、より複雑な制御ロジックが必要で、追加のオーバーヘッドが発生する可能性があります。一方、粗いクロックゲーティングはより簡単に実装できますが、電力節約の最適化が劣る可能性があります。

電源ゲーティング

電源ゲーティングは、特定のコンポーネントや機能ユニットが使用されていないときに、電源供給を完全に遮断する手法です。電源供給を切断することで、そのコンポーネントの動的および静的な電力消費を排除できます。

図9.3は、電源ゲーティングの概念を示しています。

           電源供給
                |
                |
            電源スイッチ
                |
                |
        +--------------+
        |              |
        |  機能        |
        |  ユニット    |
        |              |
        +--------------+

図9.3: 電源ゲーティングの概念

この例では、電源スイッチによって電源供給が制御されています。ここは電源とファンクショナルユニットの間に挿入されています。ファンクショナルユニットが必要ではない場合、電源スイッチがオフになり、電源がファンクショナルユニットから完全に切断され、動的および静的な電力消費が排除されます。

パワーゲーティングは、個々のファンクショナルユニットから GPU コアや大きなサブシステムまで、さまざまな粒度で適用できます。細粒度のパワーゲーティングは電力消費をより正確に制御できますが、より複雑な制御ロジックが必要で、追加のオーバーヘッドが発生する可能性があります。一方、粗粒度のパワーゲーティングはより簡単に実装できますが、電力削減が最適ではない可能性があります。

パワーゲーティングを実装するには、以下のような慎重な設計上の考慮事項が必要です:

パワーゲーティング制御ロジック: ファンクショナルユニットの活動に基づいて、パワーゲーティングをオンオフする時期を決定するための回路が必要です。この制御ロジックはパワーゲーティングのパフォーマンスへの影響を最小限に抑える必要があります。
状態保持: ファンクショナルユニットがパワーゲーティングされると、内部の状態(レジスタの値など)が失われます。状態をパワーゲーティングサイクル間で保持する必要がある場合は、シャドウレジスタやメモリなの追加の状態保持メカニズムが必要です。
パワーゲーティングのオーバーヘッド: パワーゲーティングのオンオフには一定の遅延とエネルギーのオーバーヘッドがあります。このオーバーヘッドは、パワーゲーティングの利点が欠点を上回るよう最小限に抑える必要があります。
パワードメインの分割: GPU アーキテクチャは、パフォーマンスへの影響を最小限に抑えつつ、電力削減を最大化するために、それぞれ独自のパワーゲーティング制御を持つ適切なパワードメインに分割される必要があります。

例: NVIDIA Fermi アーキテクチャにおける実行ユニットのパワーゲーティング

NVIDIA の Fermi アーキテクチャでは、各ストリーミングマルチプロセッサー(SM)に 32 の CUDA コアが含まれ、2 つのグループ(各 16 コア)に編成されています。GPU がリソース制限された負荷を実行している場合、各 SM の全 32 CUDA コアを稼働させる必要がない可能性があります。このマークダウンファイルの日本語訳を以下に提供します。コードの部分については、コメントのみを翻訳しました。

e. この場合、Fermiアーキテクチャは、消費電力を削減するために、16個のCUDAコアのグループをパワーゲートできます。

図9.4は、Fermi SMにおける実行ユニットのパワーゲートを示しています。

                 SM
        +-----------------+
        |                 |
        |   CUDAコア      |
        |   (グループ1)   |
        |                 |
        |   電源スイッチ  |
        |                 |
        |   CUDAコア      |
        |   (グループ2)   |
        |                 |
        +-----------------+

図9.4: Fermi SMにおける実行ユニットのパワーゲート

ワークロードが全32個のCUDAコアを必要としない場合、電源スイッチをオフにして、2番目のグループの16個のCUDAコアをパワーゲートし、SMの消費電力を削減することができます。

動的電圧・周波数スケーリング (DVFS)

動的電圧・周波数スケーリング (DVFS) は、現在のワークロードとパフォーマンス要件に応じて、GPUの電圧と周波数を動的に調整する手法です。低利用率の期間に電圧と周波数を下げることで、パフォーマンスにほとんど影響を与えずに、大幅に消費電力を削減することができます。

GPUの消費電力は、電圧の2乗に比例し、周波数に比例するという動的消費電力の式で表されます:

P_dynamic = α * C * V^2 * f

ここで、

αはアクティビティ係数
Cは容量
Vは電圧
fは周波数

電圧と周波数を下げることで、DVFSは消費電力を3乗で削減できます。

DVFSは、ハードウェアとソフトウェアの組み合わせで実現されます:

電圧・周波数ドメイン: GPUは複数の電圧・周波数ドメインに分割されており、それぞれを独立に制御できます。これにより、消費電力とパフォーマンスを細かく調整できます。
パフォーマンス監視: ハードウェアのパフォーマンスカウンタとセンサを使ってGPUのワークロードと温度を監視しています。この情報は、電圧と周波数を調整する適切なタイミングと方法を決定するためのDVFS(Dynamic Voltage and Frequency Scaling)コントロールロジックで使用されます。
DVFSコントロールロジック: ソフトウェアまたはハードウェアのコントロールロジックは、現在の作業負荷とパフォーマンス要件に基づいて、適切な電圧と周波数の設定を決定する責任があります。このコントロールロジックは、テーブルルックアップや閉ループフィードバック制御など、さまざまなアルゴリズムを使用してDVFS決定を行う可能性があります。
電圧と周波数のスケーリング: DVFSコントロールロジックが目標の電圧と周波数を決定すると、ハードウェアの電圧レギュレータとクロックジェネレータが新しい設定に調整されます。この処理には数クロックサイクルかかる可能性があり、その間GPUがストールするか、減速して動作する必要があります。

例: NVIDIA Fermi アーキテクチャにおけるDVFS

NVIDIA Fermi アーキテクチャには、現在の作業負荷と熱条件に基づいて、GPUの電圧と周波数を動的に調整できるハードウェアDVFSコントローラが含まれています。Fermi アーキテクチャはマルチ電圧・周波数ドメインをサポートし、GPUコアとメモリサブシステムを独立して制御できます。

図9.5は、Fermi アーキテクチャのDVFSシステムを示しています。

        +--------------------+
        |                    |
        |   GPU Core Domain  |
        |                    |
        +--------------------+
                 |
                 |
        +--------------------+
        |                    |
        |  DVFS Controller   |
        |                    |
        +--------------------+
                 |
                 |
        +--------------------+
        |                    |
        | Memory Domain      |
        |                    |
        +--------------------+

図9.5: Fermi アーキテクチャのDVFSシステム

DVFSコントローラは、GPUの作業負荷と熱条件を監視し、それに応じて電圧と周波数の設定を調整します。例えば、GPUが軽負荷で動作している場合、ここでは、コンピューティング集約的なワークロードを実行し、温度が一定のしきい値未満の場合、DVFS コントローラーはパフォーマンスを向上させるために電圧と周波数を上げる可能性があります。一方で、GPUがアイドル状態またはメモリ依存のワークロードを実行している場合、DVFS コントローラーは消費電力を節約するために電圧と周波数を下げる可能性があります。

DVFSを使うことで、GPUの消費電力を大幅に削減しつつ、良好なパフォーマンスを維持することができます。しかし、以下のような課題もあります:

待ち時間のオーバーヘッド: 電圧と周波数の設定を変更すると、一定の待ち時間が発生し、その間GPUは停止するか、低下したパフォーマンスでしか動作できません。この待ち時間のオーバーヘッドは最小限に抑える必要があります。
安定性と信頼性: 電圧と周波数の変更は、GPUの安定性と信頼性に影響を及ぼす可能性があります。DVFSコントローラーは、電圧と周波数の設定が安全な動作範囲内にあり、異なる設定間の移行が滑らかで、グリッチのないようにする必要があります。
その他の電力管理手法との相互作用: DVFSは、クロックゲートやパワーゲートなどの他の電力管理手法と相互に作用する可能性があります。DVFSコントローラーは、これらの手法と連携し、最適なパワーとパフォーマンスのトレードオフを確保する必要があります。

モバイルGPUにおけるDVFSの例:

あるモバイルGPUは、以下の3つの電圧と周波数の設定をサポートしているとします:

ハイ: 1.0 V、500 MHz
ミディアム: 0.9 V、400 MHz
ロー: 0.8 V、300 MHz

このGPUは、コンピューティング集約的なフェーズとメモリ依存のフェーズが交互に現れるゲームを実行しています。コンピューティング集約的なフェーズでは、DVFSコントローラーはパフォーマンスを最大化するためにハイの設定にします。メモリ依存のフェーズでは、DVFSコントローラーはパフォーマンスにほとんど影響を及ぼさずに消費電力を節約するためにミディアムの設定に切り替えます。

GPUの温度が一定のしきい値を超えた場合、DVFSコントローラーはさらに電圧と周波数をロー以下は、提供されたマークダウンファイルの日本語訳です。コードの部分は翻訳せず、コメントのみを翻訳しました。

過熱を防ぐため、温度が安全レベルに戻ったら、DVFSコントローラーは負荷に応じて、電圧と周波数をMediumまたはHighの設定に戻すことができます。

GPUクーリングソリューションとパッケージング

GPUが高性能化し、電力密度が高まるに伴い、信頼性のある操作と最適なパフォーマンスを確保するために、効果的なクーリングソリューションとパッケージング手法がます重要になっています。クーリングソリューションは、GPUから熱を取り除き、チップ温度を安全な動作範囲内に維持するように設計されています。パッケージング手法は、GPUとクーリングソリューションの間に効率的な熱インターフェースを提供し、GPUを物理的な損傷や環境要因から保護するために使用されます。

エアクーリング

エアクーリングは、GPUに最も一般的で、コストパフォーマンスの高いクーリングソリューションです。ヒートシンクとファンを使用して、GPUの熱を周囲の空気に放散させます。ヒートシンクは受動的な部品で、GPUからの熱を伝導し、放熱面積を大きくします。ファンは能動的な部品で、ヒートシンクの上の空気の流れを強制します。

図9.6は、GPUのエアクーリングソリューションの典型的な例を示しています。

        Fan
         |
         |
    _____|_____
   |           |
   |  Heatsink |
   |___________|
         |
         |
        GPU

図9.6: GPUのエアクーリングソリューション

エアクーリングソリューションの効果は、以下のようなさまざまな要因によって左右されます:

ヒートシンクの設計: ヒートシンクは、熱伝導率が高く、大きな表面積を持つ必要があります。銅やアルミニウムは、熱伝導率が高いため、ヒートシンクに一般的に使用されています。
ファンのパフォーマance: ファンは、ヒートシンクに十分な空気流を供給し、熱を効果的に除去する必要があります。ファンの速度や羽根の設計を最適化して、冷却性能とノイズレベルのバランスをとることができます。
熱界面材料(TIM): TIMは、サーマルペーストなどの材料で、GPUとヒートシンク間の熱伝達を最適化します。エルマルパッド、GPUとヒートシンクの間の隙間を埋めるために使用され、良好な熱接触を確保します。TIMは熱伝導率が高く、熱抵抗が低いことが望ましい。
空気流の管理: GPU筐体内部の全体的な空気流を最適化し、冷たい空気が引き込まれ、熱い空気が効率的に排出されるようにする必要があります。これには、追加のファン、エアダクト、または換気口を使用して空気の流れを導くことが含まれます。

エアクーリングは、ほとんどのコンシューマグレードのGPUと、適度な消費電力の一部のプロフェッショナルグレードのGPUに適しています。しかし、非常に高い消費電力密度を持つハイエンドのGPUの場合、エアクーリングでは許容できる温度を維持するのに十分ではない可能性があり、より高度な冷却ソリューションが必要となる可能性があります。

水冷却

水冷却は、液体冷却剤を使ってGPUから熱を取り除くための高度な冷却ソリューションです。水冷却は、液体が空気よりも高い熱容量と熱伝導率を持つため、エアクーリングよりも優れた熱性能を提供できます。GPUに対する水冷却ソリューションには、オールインワン(AIO)水冷クーラーとカスタム水冷ループの2つの主なタイプがあります。

AIO水冷クーラーは、あらかじめ組み立てられた閉loop式システムで、ウォーターブロック、ラジエーター、ポンプ、チューブから構成されています。ウォーターブロックがGPUに直接取り付けられ、液体冷却剤がブロックを通して循環し、GPU からの熱を吸収します。加熱された冷却液はラジエーターに流れ、ファンによって冷却された後、再びウォーターブロックに戻ります。AIO水冷クーラーは比較的簡単に取り付けと保守ができるため、ハイエンドのゲーミングGPUに人気があります。

カスタム水冷ループは、AIOクーラーよりも複雑で、カスタマイズ性が高です。ウォーターブロック、ラジエーター、ポンプ、リザーバ、チューブなどの個別のコンポーネントから構成されており、ユーザーが組み立てます。カスタムループは、コンポーネントの選択とレイアウトに柔軟性があるため、より効率的な冷却とデザイン性を実現できます。しかし、設計には専門知識が必要です。こちらがJapaneseの翻訳版です。コードの部分は翻訳せず、コメントのみ翻訳しました。

Figure 9.7は、GPUの典型的な液体冷却ソリューションを示します。

Figure 9.7: GPUの液体冷却ソリューション

液体冷却には、エアクーラーと比較して以下のような利点があります:

GPU温度の低下: 液体冷却はエアクーリングよりもGPU温度を低く維持できるため、より高いブーストクロックと優れたパフォーマンスを実現できます。
静かな動作: 液体冷却システムはエアクーラーに比べてファン速度を低く維持できるため、静かな動作が可能です。
オーバークロックの可能性向上: 液体冷却によりより低い温度と優れた熱性能が得られるため、GPUのより積極的なオーバークロックが可能になります。

ただし、液体冷却にはコストの高さ、複雑性、および液漏れの可能性といった欠点もあります。定期的な冷媒の交換やリーク検査などの適切な保守が、液体冷却システムの長期的な信頼性を確保するために不可欠です。

パッケージング手法

パッケージング手法は、GPUの熱管理と信頼性に重要な役割を果たします。パッケージは、GPUダイとクーリングソリューションの間のインターフェースを提供し、物理的な損傷や環境要因から保護します。GPUに使用される一般的なパッケージング手法には以下のようなものがあります:

Flip-Chip Ball Grid Array (FC-BGA): FC-BGAパッケージでは、GPUダイがフリップされ、ソルダーボールの配列を使ってパッケージ基板に接続されます。ソルダーボールは電気的接続と機械的サポートを提供します。FC-BGAは高ピン密度と優れた熱性能を可能にし、ヒートスプレッダをGPUダイの背面に直接取り付けることができます。
Chip-on-Wafer-on-Substrate (CoWoS): CoWSは、GPUとHBMメモリなどの複数のダイを単一のパッケージに統合できる高度なパッケージ化手法です。ダイはまず基板に接合され、ãã®ãã¼ã¯ãã¦ã³ãä»ãã«ã¯æ¥æ¬èªã®ç¿»è¨³ãæä¾ãã¾ããã³ã¼ãã«ã¤ãã¦ã¯ã³ã¡ã³ãã ãè¨è¿°ãä»ããã¾ããã
ã·ãªã³ã³ã¤ã³ã¿ã¼ãã¯ã¼ã (CoWoS): CoWoSã§ã¯ãGPUãã¡ãã¢ãªãã®éåãä½ã³ã¹ãã¯ã¼ãã¢ã¯ãã«ãä½ç½®ãã¢ã¤ã³ã¿ã¼ãã¼ã¹ã«ãããã¨ã§ãé«åå¸¯éãä½æåº¦ãæ¥ç¶ãå¯è½ã«ããã¾ããä¸æ¹ãã¦ãé»åæ¾é¡ãµã¼ããã£ã³ã°ã®åæ åã«ãå¯¾å¿ããã¹ããã¾ããã
ç´æ¥ãã¤ã¹ãªã ã (DCA): DCAããã±ã¼ã¸ã§ã§ã¯ãGPUããã¤ã¹ãç´æ¥PCBã«ãã³ããã¯ãã£ãã¢ããªæå³ã¤ã³ãã¼ã«ãã½ã«ããæ¥ç¶ãããã¾ããããã«ã«ã¯ã»ããã¬ãã±ã¼ã¸ãµãã¹ãããæãã¦ãGPUãã¤ã¹ã®ãã¡ãã確å®ãªæ¥ç¶ãä¿è·ãå«ã¾ãã¦ããã¾ããã
ãã«ãã¤ããã¸ã¥ã¼ã« (MCM): MCMããã±ã¼ã¸ã§ã«ã¯ãGPUãã¡ãã¢ãªã®ããã£ãªæ°ããã¤ã¹ãè¨±å¯ãããã¹ããéåä¸ã«æ´åããã¾ããã¤ã¹ã¯ãã¤ã¤ã¼ãã¼ãã³ã¹ãããã£ããã£ãã¯ãã½ã¼ã«ãæéãã¦æ¥ç¶ããã¾ããMCMããã±ã¼ã¸ã§ã¯ãçç¹çãªé«è§£åº¦ã¨ãç¡¬éçã«åå²ããæ¥ç¶ãæä¾ãã¾ããã

æ®éã®ããã±ã¼ã¸ã³ã°ææ³ã¯ä»¥ä¸ã®ãã¨ãæä¾ããã¹ãã§ãã:

æºå¸¯çä¿è·:ããã±ã¼ã¸ã¯ãGPUãã¤ã¹ãèªèº«ãæ¢é¤ãé»èªãç¥è§£ããããªããããããè¿½ããããããããããã¨ããããä¿è·ããå¿è¦ãããã¾ãã
å¤é¢çä¿è·:ããã±ã¼ã¸ã¯ãGPUãã¤ã¹ãæ¹¿æ°ãå ±ç¾ãé»è§å¨é¸ã®ãããªå¤é¢è¦å´ã®å½±é¿ããä¿æããå¿è¦ãããã¾ãã

çµãã«

éç¨ããããåæ¸ãåç¬é¤¨ã¯ãGã®éè¦ãªæ¹é¢ã§ããPUデザインと運用 GPUがより強力かつ密度の高くなるにつれ、最適なパフォーマンス、エネルギー効率、信頼性を確保するための効果的な管理手法が不可欠となっています。

電力消費の源泉であるダイナミック電力とスタティック電力の理解は、効果的な電力管理戦略を策定するために重要です。クロックゲーティングとパワーゲーティングは、使用されていないまたは待機中のコンポーネントを選択的に無効にすることで、それぞれダイナミック電力とスタティック電力の消費を削減する広く使われている手法です。

動的電圧周波数スケーリング(DVFS)は、優れたパフォーマンスを維持しながらGPUの電力消費を大幅に削減できる強力な手法です。ワークロードと熱条件に応じて動的に電圧と周波数を調整することで、DVFSはパフォーマンスと電力効率の良いバランスを実現できます。

効率的な冷却ソリューションと封止技術も、最新GPUの熱出力管理に不可欠です。エアクーリングは最も一般的で費用対効果の高い解決策ですが、液体冷却は非常に高い電力密度を持つハイエンドGPUに対してより優れた熱性能を提供できます。CoWSやMCMなどの高度な封止技術は、効率的な熱管理と高性能な相互接続を実現できます。

GPU アーキテクチャが進化し電力密度が高まるにつれ、GPU のパフォーマンスと効率の継続的な拡大を実現するには、革新的な電力、エネルギー、熱管理手法が不可欠となります。高度なDVFS アルゴリズム、 integrated voltage regulator、先進的なパッケージング技術などの研究分野が、次世代の高性能かつ省エネルギーのGPUを実現する上で重要な役割を果たすことでしょう。

Chapter 8 Interconnect and on Chip Networks Chapter 10 Reliability and Fault Tolerance Gpu Design