第4章: GPU メモリシステムの設計
グラフィックスプロセッシングユニット(GPU)は、さまざまなアプリケーションで高性能と高エネルギー効率を達成できる、高度に並列化された、プログラム可能なアクセラレータに進化してきました。メモリシステムは、多数の並行スレッドにデータへの高速アクセスを提供する必要があるため、現代のGPUアーキテクチャにとって重要な構成要素です。この章では、第一レベルのメモリ構造、オンチップ相互接続ネットワーク、メモリパーティションユニット、および将来のGPUメモリシステムに関する研究動向を含む、GPUメモリシステム設計の主要な要素を探ります。
第一レベルのメモリ構造
GPUの第一レベルのメモリ構造は、頻繁に使用されるデータへの高速アクセスを提供し、メモリ階層の下位レベルへのアクセス数を削減する役割を担っています。これらの構造には、スクラッチパッドメモリ、L1データキャッシュ、L1テクスチャキャッシュなどが含まれます。
スクラッチパッドメモリとL1データキャッシュ
スクラッチパッドメモリ(NVIDIA CUDAプログラミングモデルでは共有メモリ、OpenCLでは局所メモリと呼ばれる)は、低レイテンシで、ソフトウェアによって管理される、協調スレッドアレイ(CTA)またはワークグループ内のすべてのスレッドで共有されるメモリ領域です。スクラッチパッドメモリは通常、複数のスレッドによる並列アクセスを可能にするために、バンク化されたSRAM構造で実装されています。
図4.1は、NVIDIA Fermi およびKepler アーキテクチャで使用されているデザインと同様の、統合されたL1データキャッシュとスクラッチパッドメモリの構成を示しています[Minkin et al., 2012]。
アドレスクロスバー
|
v
データアレイ (キャッシュまたはスクラッチパッドとして構成可能)
|
v
データクロスバー
|
v
ロード/ストアユニット
図4.1: 統一されたL1データキャッシュとスクラッチパッドメモリの構成。
このデザインの主要なコンポーネントは以下の通りです:
-
データアレイ: スクラッチパッドメモリまたはL1データキャッシュとして構成可能な、高度にバンク化されたSRAM構造。各バンクは32ビット幅で、独立したアクセスのためのデコーダを持っています。
-
アドレスクロスバー: ロード/ストアユニットからのメモリアドレスをデータアレイの適切なバンクに配布します。
-
データクロスバー: バンクからロード/ストアユニットにデータをルーティングし、そこからレジスタファイルにデータを書き込みます。
-
ロード/ストアユニット: メモリアドレスを計算し、コアレッシング規則を適用し、メモリアクセスを個別のコアレッシングアクセスに分割します。
スクラッチパッドメモリアクセスはタグルックアップステージをバイパスします。これは、メモリが直接マップされているためです。バンク競合は、競合するアクセスを複数サイクルに分割することで処理され、競合する部分は後続のサイクルで再実行されます。
L1データキャッシュは、グローバルメモリアドレス空間のサブセットを格納するために使用されます。L1データキャッシュへのアクセスには、リクエストされたデータが存在するかどうかを判断するためのタグルックアップが含まれます。キャッシュブロックサイズは通常128バイトで、グラフィックsDRAM(例えばGDDR5)から単一のアクセスで読み出せる最小データサイズである32バイトセクタに更に分割できます。
L1テクスチャキャッシュ
テクスチャメモリは、空間的な局所性に最適化された読み取り専用のメモリ空間で、グラフィックスワークロードで一般的に使用されます。L1テクスチャキャッシュは、テクスチャアクセスに存在する2次元の空間的な局所性を活用するように設計されています。
図4.2は、典型的なL1テクスチャキャッシュの構成を示しています。
図4.2: L1テクスチャキャッシュの構成
L1テクスチャキャッシュの主要な構成要素は以下の通りです:
-
アドレスマッピング: テクスチャ座標をキャッシュアドレスに変換します。
-
タグ配列: リクエストされたデータがキャッシュ内に存在するかどうかを判断するためのタグを格納します。
-
データ配列: 実際のテクスチャデータを格納します。
-
テクスチャフィルタリング: フェッチされたテクスチャデータに対して補間およびフィルタリング処理を行い、最終的なフィルタリングされたテクセルを生成します。
L1テクスチャキャッシュは通常、空間的な局所性を活用するためにタイルベースの構成を採用しています。キャッシュは小さなタイル(例えば4x4または8x8テクセル)に分割され、各タイルは連続的に格納されることで、特定のテクスチャフェッチに対してアクセスするキャッシュラインの数を最小限に抑えることができます。
統合テクスチャ・データキャッシュ
NVIDIA社のMaxwellやPascalなどの最近のGPUアーキテクチャでは、キャッシュの利用効率を向上させ、全体的なキャッシュフットプリントを削減するために、統合テクスチャ・データキャッシュが導入されています[Heinrich et al., 2017]。この設計では、L1データキャッシュとL1テクスチャキャッシュが単一の物理的なキャッシュに統合され、ワークロードの要件に応じて動的にキャパシティを割り当てることができます。
図4.3は、統合テクスチャ・データキャッシュの構成を示しています。
図4.3: 統合されたテクスチャとデータキャッシュの構成
統合されたキャッシュ設計の主要コンポーネントは以下の通りです:
-
キャッシュコントローラ: メモリリクエストを受け取り、それらがデータキャッシュパーティションかテクスチャキャッシュパーティションによって処理されるべきかを判断します。
-
データキャッシュパーティション: グローバルメモリスペースへのアクセスを処理し、スタンドアロンのL1データキャッシュと同様の機能を果たします。
-
テクスチャキャッシュパーティション: テクスチャメモリアクセスを処理し、スタンドアロンのL1テクスチャキャッシュと同様の機能を果たします。
-
データ配列: グローバルメモリデータとテクスチャデータの両方を格納する共有データ配列。
統合されたキャッシュ設計により、ワークロードのアクセスパターンに応じてパーティションサイズを調整できるため、利用可能なキャッシュ容量をより効率的に活用できます。この柔軟性により、固定サイズの個別のL1キャッシュと比較して、パフォーマンスとエネルギー効率が向上する可能性があります。
オンチップ相互接続ネットワーク
オンチップ相互接続ネットワークは、GPUコア(ストリーミングマルチプロセッサまたはコンピューティングユニットとも呼ばれる)とメモリパーティションユニットを接続する役割を担います。この相互接続は、GPUワークロードの大規模な並列性をサポートするために、高帯域幅と低レイテンシを提供する必要があります。
現代のGPUでは、クロスバーやメッシュトポロジーがオンチップ相互接続ネットワークに一般的に使用されています。クロスバーは、すべてのコアとメモリパーティション間の完全な接続性を提供し、高帯域幅通信を可能にしますが、面積とパワー消費が増加します。一方、メッシュトポロジーは、各コアを隣接するコアとメモリパーティションに接続する、より拡張性の高いソリューションを提供します。
図4.4は、GPUにおけるメッシュ相互接続の例を示しています。
コア コア コア コア
| | | |
—— —— —— ——
| | | |
コア コア コア コア
| | | |
—— —— —— ——
| | | |
メモリ メモリ メモリ メモリ
パーティション パーティション パーティション パーティション
図4.4: GPUのメッシュ相互接続
メッシュ相互接続は、コアとメモリパーティション間の効率的なデータ転送を可能にし、面積とパワーのオーバーヘッドを最小限に抑えます。高性能と輻輳の回避を確保するために、高度なルーティングアルゴリズムとフロー制御メカニズムが採用されています。
## メモリパーティションユニット
メモリパーティションユニットは、GPUコアからのメモリリクエストを処理し、オフチップDRAMを管理する責任があります。各メモリパーティションには通常、L2キャッシュ、アトミック演算のサポート、メモリアクセススケジューラが含まれています。
### L2キャッシュ
L2キャッシュは、GPUコアとオフチップDRAMの間に位置する共有キャッシュです。その主な目的は、高レイテンシーで電力集約的なDRAMへのアクセス数を減らすことで、頻繁にアクセスされるデータをキャッシュすることです。
GPUのL2キャッシュは通常、大容量(2-4MB)で高帯域幅の、セット関連型のライトバックキャッシュとして設計されています。L2キャッシュは複数のメモリパーティションにわたって分割されており、並列アクセスと throughput の向上を可能にしています。
図4.5は、GPUメモリパーティションのL2キャッシュの構成を示しています。以下は、提供されたマークダウンファイルの日本語翻訳です。コードの部分は翻訳せず、コメントのみを翻訳しています。
図4.5: GPUメモリパーティションのL2キャッシュ構成
L2キャッシュコントローラーは、GPUコアからのメモリリクエストを受け取り、リクエストされたデータがキャッシュ内にあるかどうかをタグ配列で確認します。キャッシュヒットの場合、データ配列からデータを取り出し、リクエストしたコアに送り返します。キャッシュミスの場合、リクエストはメモリスケジューラーに転送され、DRAMからデータをフェッチします。
原子操作
原子操作は、並列ワークロードにおけるスレッド間の同期と通信に不可欠です。GPUは、原子加算、最小値、最大値、比較交換などの様々な原子操作をサポートしており、複数のスレッドが同時にメモリ位置にアクセスする場合でも、atomicity(原子性)が保証されます。
原子操作は通常、メモリパーティションユニットで実装され、低レイテンシーと高スループットの実行を確保しています。原子操作ユニット(AOU)などの専用ハードウェアユニットが、効率的に原子リクエストを処理します。
図4.6は、GPUメモリパーティションの原子操作ユニットの例を示しています。
原子リクエスト
|
v
原子操作ユニット
|
v
L2キャッシュ/DRAM
図4.6: GPUメモリパーティションの原子操作ユニット
AOUは、GPUコアからの原子リクエストを受け取り、ターゲットメモリ位置で要求された操作を実行します。メモリ位置がL2キャッシュ内にある場合、AOUはキャッシュデータを直接更新します。メモリ位置がキャッシュされていない場合、AOUはDRAMからデータをフェッチし、原子操作を実行してから、その結果をDRAMに書き戻します。
メモリアクセススケジューラー
メモリアクセススケジューラーは、以下は、提供されたマークダウンファイルの日本語翻訳です。コードの部分は翻訳せず、コメントのみ翻訳しています。
オフチップDRAMへのメモリリクエスト。その主な目的は、メモリアクセスの待ち時間を最小限に抑えながら、DRAMバンド幅の利用率を最大化することです。
GPUメモリスケジューラは、高性能を達成するために、さまざまなスケジューリングアルゴリズムと最適化を採用しています。一般的な手法には以下のようなものがあります:
-
Out-of-order scheduling: メモリリクエストを並べ替えて、ロウバッファヒットを最大化し、DRAMプリチャージとアクティベーションのオーバーヘッドを最小限に抑える。
-
Bank-level parallelism: 複数のDRAMバンクにわたる並列性を活用して、異なるメモリ領域への同時アクセスを可能にする。
-
Write-to-read turnaround optimization: DRAMにおける書き込みと読み出しの切り替え時に発生する待ち時間のペナルティを最小限に抑える。
-
Address interleaving: メモリアクセスをチャンネル、ランク、バンクにわたって分散させ、並列性を最大化し、競合を回避する。
図4.7は、GPUメモリパーティションのメモリアクセススケジューラの概要を示しています。
メモリリクエスト
|
v
メモリスケジューラ
|
v
チャンネル チャンネル チャンネル チャンネル
| | | |
v v v v
ランク ランク ランク ランク
| | | |
v v v v
バンク バンク バンク バンク
図4.7: GPUメモリパーティションのメモリアクセススケジューラ
メモリスケジューラは、L2キャッシュとアトミック演算ユニットからのメモリリクエストを受け取り、これらのリクエストをいつ、どのような順序でDRAMに発行するかを決定します。メモリアクセスを慎重にスケジューリングすることで、スケジューラはDRAMバンド幅の利用率を大幅に改善し、平均メモリアクセス待ち時間を削減することができます。
研究以下は、この Markdown ファイルの日本語翻訳です。コードについては、コメントのみ翻訳しています。
GPU メモリシステムの方向性
GPU アーキテクチャの進化と並列ワークロードの需要の増加に伴い、GPU メモリシステムのパフォーマンスと効率を向上させるための研究が行われています。主な研究分野には以下のようなものがあります。
メモリアクセススケジューリングとインターコネクションネットワークの設計
GPUのコア数とメモリパーティションの増加に伴い、メモリアクセススケジューラとインターコネクションネットワークの設計が高パフォーマンスを達成するために重要になっています。この分野の研究では、GPUワークロードの大規模な並列性と複雑なメモリアクセスパターンを効率的に処理できる新しいスケジューリングアルゴリズムやインターコネクトトポロジーの開発に焦点を当てています。
例えば、Jia et al. [2012] は、「Staged Memory Scheduling (SMS)」と呼ばれるメモリスケジューリングアルゴリズムを提案しています。SMSは、DRAMバンクレベルの並列性を向上させ、メモリアクセス待ち時間を削減することを目的としています。SMSは、リクエストをバンクとロウアドレスに基づいてバッチにグループ化する「バッチ形成」段階と、バッチの優先順位付けを行う「バッチスケジューリング」段階から成ります。
また、Kim et al. [2012] は、GPUのための高帯域幅メモリ(HBM)アーキテクチャを提案しています。HBMは、複数のDRAMダイを積層し、シリコン貫通接続(TSV)で接続することで、従来のGDDRメモリに比べて大幅に高い帯域幅と低遅延を実現しています。著者らはまた、HBMの増大した並列性と複雑性を効率的に管理できるメモリコントローラの設計も提案しています。
キャッシュの有効性
GPUは、オフチップメモリアクセスの削減とパフォーマンスの向上のために、さまざまなキャッシング機構を採用しています。しかし、これらのキャッシュの有効性は、ワークロードの特性やキャッシュ設計によって大きく異なります。この分野の研究は、キャッシュバイパス、キャッシュ圧縮、アダプティブキャッシュ管理などの手法を通じて、GPUキャッシュの効果を高めることを目的としています。
例えば、Huangfu and Xie [2016]は、メモリリクエストの再利用距離に基づいて、キャッシュに保存するかバイパスするかを決定する簡単ながら効果的なヒューリスティックを使った、GPUのための動的キャッシュバイパススキームを提案しています。このスキームはアプリケーションの実行時の動作に適応し、キャッシュの汚染を大幅に削減し、パフォーマンスを向上させることができます。
別の例として、Vijaykumar et al. [2015]の研究があります。これはGPU向けの圧縮キャッシュアーキテクチャを提案するものです。著者らは、多くのGPUアプリケーションでデータの重複が大きいことに着目し、これを活用してキャッシュの実効容量を増やすことができると指摘しています。彼らは遅延オーバーヘッドを最小限に抑えつつ高い圧縮率を実現する新しい圧縮スキームを提案しています。
メモリリクエストの優先度付けとキャッシュバイパス
GPUでは、異なるワープやスレッドからのメモリリクエストの重要度や全体的なパフォーマンスへの影響が異なります。重要なリクエストを優先し、重要でないリクエストをバイパスすることで、メモリ待ち時間を削減し、リソースの利用効率を高めることができます。
この分野の研究では、重要なメモリリクエストを識別して優先度付けする手法や、選択的にキャッシュをバイパスするメカニズムについて探っています。
例えば、Jog et al. [2013]は、"Critical-Aware Warp Acceleration" (CAWA)と呼ばれるメモリリクエストの優先度付けスキームを提案しています。CAWAは、パイプラインの停滞につながる可能性の高い重要なワープを識別し、それらのメモリリクエストを非重要なワープのものよりも優先的に処理します。このスキームは、命令の依存関係の数やワープの経過時間といった静的および動的な情報を組み合わせて、重要度を判断しています。
Lee et al. [2015]は、キャッシュの汚染を減らし、メモリアクセスのタイミングを改善するためのGPU向けのキャッシュバイパススキームを提案しています。このスキームはプログラムカウンタ(PC)ベースの以下は、提供されたマークダウンファイルの日本語翻訳です。コードについては、コメントのみ翻訳しています。
キャッシングの恩恵を受けにくいメモリリクエストを識別し、それらを直接下位レベルのメモリ階層にバイパスするプレディクションメカニズム。著者らは、このスキームにより、ベースラインのGPUと比べて大幅なパフォーマンスと省エネルギー効率の向上が可能であることを示しています。
ワープ間ヘテロジェネイティの活用
GPUは、メモリレイテンシを隠蔽し、高スループットを達成するために、多数のワープを同時に実行します。しかし、リソース要件、メモリアクセスパターン、パフォーマンス特性などの面で、ワープ間に大きな異質性が存在する可能性があります。
この分野の研究は、このワープ間ヘテロジェネイティを活用して、GPUのリソース割り当て、スケジューリング、メモリ管理を改善することを目的としています。
例えば、Kayıran et al. [2014]は、ワープレベルの分岐認識キャッシュ管理スキームを提案しています。これは、各ワープの分岐特性に基づいて、キャッシュの割り当てと置換ポリシーを動的に適応させます。高分岐ワープにはより多くのキャッシュリソースを割り当て、低分岐ワープにはより少ないリソースを割り当てることで、メモリ分岐を軽減し、キャッシュ利用率を向上させます。
別の例として、Sethia et al. [2015]の研究があります。これは、ワープ間ヘテロジェネイティを活用してDRAMバンクレベル並列性を改善するメモリコントローラ設計を提案しています。異なるワープがバンクレベル並列性の程度が異なることに着目し、バンクレベル並列性の高いワープを優先的にスケジューリングすることで、メモリ競合を軽減し、システスループットを向上させます。
協調的なキャッシュバイパス
キャッシュバイパスは、メモリリクエストをキャッシュをスキップして直接下位レベルのメモリ階層にアクセスできるようにする手法です。バイパスにより、キャッシュ汚染の軽減や、メモリアクセスの適時性の向上が期待できますが、コアやメモリパーティション間で非協調的なバイパス判断を行うと、パフォーマンスが最適化されない可能性があります。
この分野の研究では、以下は、提供されたマークダウンファイルの日本語翻訳です。コードについては、コメントのみ翻訳しています。
GPUにおけるキャッシュバイパスの意思決定を調整することで、全体的なシステムのパフォーマンスとリソース利用率を向上させることができます。
例えば、Li et al. [2015] は、中央集権的なバイパス制御器を使用して、グローバルなバイパス決定を行うGPU向けの調整されたキャッシュバイパススキームを提案しています。この制御器は、各コアからのランタイム情報、例えばキャッシュミスレートやメモリアクセスパターンなどを収集し、それぞれのコアに最適なバイパス戦略を決定するために使用しています。著者らは、この手法により、調整されていないバイパスと比べて、大幅なパフォーマンスと省エネ性の向上が可能であることを示しています。
アダプティブキャッシュ管理
GPUアプリケーションに最適なキャッシュ構成は、メモリアクセスパターン、ワーキングセットサイズ、リソース要件などによって大きく異なる可能性があります。設計時に固定されたスタティックなキャッシュ管理ポリシーでは、さまざまなアプリケーションの多様で動的な動作に適応できない可能性があります。
この分野の研究では、アプリケーションのランタイムの動作に基づいて、キャッシュ構成と管理ポリシーを動的に適応させる手法を探っています。
例えば、Wang et al. [2016] は、GPUのアダプティブキャッシュ管理スキームを提案しています。このスキームは、アプリケーションのメモリアクセスパターンに基づいて、キャッシュパーティションサイズと置換ポリシーを動的に調整します。このスキームは、ハードウェアとソフトウェアの組み合わせを使用してキャッシュの動作を監視し、キャッシュ利用率とパフォーマンスの向上のために動的な調整を行います。
別の例として、Dai et al. [2018] の研究があります。これは、GPUのアダプティブキャッシュ管理のためのマシンラーニングベースのアプローチを提案しています。著者らは強化学習を使用して、各アプリケーションのランタイムの動作に基づいて最適なキャッシュ構成を自動的に学習しています。学習されたポリシーは、各アプリケーションの特定のニーズに適応できる再構成可能なキャッシュアーキテクチャを使用して実装されています。
キャッシュの優先順位付け
GPUでは、さまざまなタイプのメモリリクエスト、例えばロード、ストア、テクスチャリクエストなどは、待機時間やバンド幅の要件が異なる可能性があります。特定のリクエストタイプを優先することで、全体的なシステムパフォーマンスとリソース利用率を向上させることができます。
この分野の研究では、GPUキャッシュ階層におけるさまざまなタイプのメモリリクエストの優先順位付けに関する手法を探っています。
例えば、Zhao et al. [2018]は、GPUのキャッシュ優先順位付けスキームを提案しています。このスキームでは、メモリリクエストの重要性と待機時間の感度に基づいて、異なるタイプのメモリリクエストに異なる優先順位を割り当てます。命令タイプや依存命令の数などの静的および動的な情報を組み合わせて、各リクエストの優先順位を決定しています。著者らは、このスキームにより、優先順位付けのないベースラインのGPUと比べて、大幅なパフォーマンスと省エネ性の向上が可能であることを示しています。
仮想メモリページの配置
従来のGPUは、プログラマが明示的にメモリの割り当てと解放を行う手動メモリ管理を採用していました。しかし、最近のGPUでは仮想メモリをサポートするようになり、オペレーティングシステムが自動的にメモリの割り当てと配置を管理できるようになりました。
この分野の研究では、GPUの仮想メモリページの配置を最適化し、メモリアクセスのローカリティを向上させ、アドレス変換オーバーヘッドを削減する手法を探っています。
例えば、Zheng et al. [2016]は、GPUのページ配置スキームを提案しています。このスキームは、頻繁にまとめてアクセスされるページを同じメモリチャネルやバンクに配置することで、メモリアクセスのローカリティを向上させることを目的としています。ハードウェアとソフトウェアの両方の手法を組み合わせて、アプリケーションのメモリアクセスパターンを監視し、動的にページ配置の決定を行います。
別の例として、Ganguly et al. [2019]の研究があります。この研究では、GPUの仮想メモリ管理スキームを提案し、アドレス変換オーバーヘッドの削減を目指しています。ハードウェアとソフトウェアの両方の手法を組み合わせて実現しています。以下は、提供されたマークダウンファイルの日本語翻訳です。コードについては、コメントのみ翻訳しています。
データ配置
GPUメモリ階層でのデータ配置は、メモリアクセスの局所性とパフォーマンスに大きな影響を及ぼします。データ配置の最適化により、メモリ待ち時間の削減、キャッシュの有効活用、メモリ帯域幅の活用率の向上が期待できます。
この分野の研究では、アプリケーションのメモリアクセスパターンやリソース要件に基づいて、GPUでのデータ配置の最適化手法を探っています。
例えば、Agarwal et al. [2015]は、同じメモリチャンネルやバンクに頻繁にアクセスされるデータを配置することで、メモリアクセスの局所性を向上させるデータ配置方式を提案しています。この方式は、静的および動的な分析を組み合わせて、各アプリケーションの最適なデータ配置を決定します。
また、Tang et al. [2017]の研究では、アクセスパターンに応じてデータを異なるメモリチャンネルに配置することで、メモリ帯域幅の活用率を高めるデータ配置方式を提案しています。この方式は、機械学習ベースのアプローチを使ってアプリケーションのメモリアクセスパターンを予測し、動的なデータ配置を行います。
マルチチップモジュールGPU
GPUのパフォーマンスと電力要件が増大し続けるにつれ、従来の単一チップ設計では対応が難しくなってきています。複数のGPUチップを1つのパッケージに統合したマルチチップモジュール(MCM)設計は、この問題に対する有望な解決策として注目されています。
この分野の研究では、MCMGPUの設計と最適化、メモリシステムアーキテクチャ、インターコネクト設計、リソース管理などが探られています。
例えば、Arunkumar et al. [2017]は、高帯域幅・低レイテンシのインターコネクトを使って複数のGPUチップを接続するMCMGPU設計を提案しています。また、メモリシステムアーキテクチャとしても、以下は、提供されたマークダウンファイルの日本語翻訳です。コードについては、コメントのみ翻訳しています。
MCMデザインの増加した帯域幅と容量を利用して、パフォーマンスとエネルギー効率を向上させます。
別の例として、Milic et al. [2018]の研究があります。これは、リソース利用率を向上させ、チップ間通信オーバーヘッドを削減することを目的としたMCMGPUのリソース管理スキームを提案しています。このスキームは、ハードウェアとソフトウェアの組み合わせを使用して、アプリケーションのリソース使用状況と通信パターンを監視し、動的なリソース割り当て決定を行います。
結論
メモリシステムは、現代のGPUアーキテクチャにとって重要な構成要素であり、その設計と最適化は、全体的なシステムのパフォーマンスと効率に大きな影響を及ぼします。並列ワークロードの要求が続々と高まる中、研究者たちはGPUメモリシステムのパフォーマンス、スケーラビリティ、適応性を向上させるための様々な手法を探索しています。
この分野における主要な研究の方向性には、メモリアクセススケジューリングとインターコネクト設計、キャッシュの有効性、メモリリクエストの優先順位付けとキャッシュバイパス、ワープ間の異質性の活用、コーディネートされたキャッシュバイパス、アダプティブなキャッシュ管理、キャッシュの優先順位付け、仮想メモリページの配置、データ配置、マルチチップモジュールデザインなどが含まれます。
これらの手法を探索することで、研究者たちは、高いパフォーマンスとエネルギー効率を維持しつつ、並列ワークロードの増大する要求に対応できるGPUメモリシステムの開発を目指しています。GPUが機械学習、科学計算、データ分析などの新しい分野で活用されていくにつれ、そのメモリシステムの設計と最適化は、研究と革新の重要な領域として残り続けるでしょう。