Hogyan Tervezzünk GPU Chipet
Chapter 12 Future Trends and Emerging Technologies Gpu Design

12. fejezet: GPU-tervezés jövőbeli trendek és fejlődő technológiák

Ahogy a GPU-architektúrák folyamatosan fejlődnek, hogy megfeleljenek a párhuzamos számítási terhelések növekvő igényeinek, számos új trend és technológia van abban a helyzetben, hogy formálja a GPU-tervezés jövőjét. Ebben a fejezetben néhány kulcsfontosságú trendet vizsgálunk meg, beleértve a heterogén számítást és gyorsítókat, a 3D-s rétegzést és a chiplet-alapú tervezéseket, az AI-ra és gépi tanulásra specializált architektúrákat, valamint a GPU-architektúrában található nyitott kutatási problémákat és lehetőségeket.

Heterogén számítás és gyorsítók

A heterogén számítás, amely különböző típusú processzorokat vagy gyorsítókat kombinál a magasabb teljesítmény és energiahatékonyság elérése érdekében, az utóbbi években egyre elterjedtebbé vált. A GPU-k élen járnak ebben a trendben, gyakran CPU-kkal összekapcsolva a párhuzamos terhelések gyorsítása érdekében. Azonban az gyorsítók palettája gyorsan bővül, új típusú, speciális hardvert fejlesztenek ki meghatározott alkalmazási területekre.

Egy figyelemre méltó példa az AI-gyorsítók térnyerése, mint a Google Tensor Processing Unit (TPU) [Jouppi et al., 2017], amelyeket kifejezetten a gépi tanulási terhelések gyorsítására terveztek. Ezek a gyorsítók gyakran csökkentett pontosságú aritmetikát, speciális memória hierarchiákat és adatfolyam-architektúrákat alkalmaznak a magas teljesítmény és energiahatékonyság elérése érdekében az AI feladatokhoz.

A gyorsítók egy másik fejlődő osztálya a gráf-feldolgozásra és -analitikára összpontosít. A gráf-feldolgozási terhelések, mint amilyenek a közösségi hálózat-elemzésben, ajánlórendszerekben és tudományos szimulációkban is előfordulnak, szabálytalan memória-hozzáférési mintázatokkal és finom szemcsézettségű szinkronizációval rendelkeznek, ami kihívást jelenthet a hagyományos CPU- és GPU-architektúrák számára. A speciális gráf-feldolgozási gyorsítók, mint a Graphicionado [Ham et al., 2016] és a GraphCore Intelligence Processing Unit (IPU) [GraphCore, 2020], arra törekszenek, hogy kezeljék ezeket a kihívásokat azáltal, hogy hardvertámogatást nyújtanak a hatékony gráf-feldolgozás számára.Itt a magyar fordítás:

Hatékony gráf bejárás, szinkronizáció és terhelés kiegyenlítés.

Mivel az akcelrátorok diverzitása nő, e különböző eszközök koherens rendszerbe integrálásának kihívása egyre összetettebbé válik. A heterogén rendszerarchitektúrák, mint az AMD Heterogén Rendszer Architektúrája (HSA) [AMD, 2015] és az NVIDIA CUDA Egyesített Memória [NVIDIA, 2020] megoldása, egységes programozási modellt és memóriateret biztosítanak a különböző típusú processzorok és gyorsítók között. Ezek az architektúrák lehetővé teszik a CPU-k, GPU-k és egyéb gyorsítók zökkenőmentes együttműködését, lehetővé téve a fejlesztők számára, hogy az algoritmustervezésre koncentrálhassanak ahelyett, hogy a különböző eszközök közötti adatmozgatás és szinkronizáció részleteivel kellene foglalkozniuk.

Ezen a területen folyó kutatások olyan témákat tárgyalnak, mint a hatékony feladatfelosztás és ütemezés a heterogén eszközökön, az egyesített memóriakezelés és a nagy teljesítményű összekapcsolások a heterogén rendszerekben. Ahogy a gyorsítók palettája tovább bővül, a GPU-k tervezését valószínűleg befolyásolni fogja más típusú, specializált hardverekkel való zökkenőmentes integráció szükségessége.

3D Csomagolás és Chiplet-alapú Tervezések

A 3D csomagolás és a chiplet-alapú tervezések olyan feltörekvő csomagolási technológiák, amelyek új lehetőségeket kínálnak a GPU-architektúra innovációja számára. Ezek a technológiák lehetővé teszik több cső vagy réteg integrálását egyetlen csomagban, ami nagyobb sávszélességet, alacsonyabb késleltetést és hatékonyabb energiaellátást tesz lehetővé a hagyományos 2D csomagoláshoz képest.

A 3D csomagolás, mint a szilícium-átmenetek (TSV-k) vagy a hibrid memória kocka (HMC) technológia [Jeddeloh és Keeth, 2012], lehetővé teszi a logika vagy a memória több rétegének függőleges integrációját. Ezt a technológiát használják a nagy sávszélességű memóriában (HBM) [Lee et al., 2014], amely jelentősen nagyobb memória sávszélességet és alacsonyabb energiafogyasztást biztosít a hagyományos GDDR memóriához képest. Az AMD Radeon R9 Fury X és az NVIDIA Tesla P100 GPU-k már át is vették az HBM-et, hogy enyhítsék a memória sávszélesség szűk keresztmetszeteit a memória-intenzív munkaterhelések esetén.Chiplet-alapú tervezések, másfelől, több kisebb chip (chiplet) integrációját foglalják magukban egy egyetlen csomagba, nagy sűrűségű interconnect-ek, mint például szilícium interposer-ek vagy beágyazott többchipes interconnect hidak (EMIB-ek) használatával [Demir et al., 2018]. Ez a megközelítés lehetővé teszi különböző gyártási technológiák keverését és párosítását, lehetővé téve az egyes chiplet-ek optimalizálását a specifikus funkciójukra. Például a számításigényes chiplet-ek előállíthatók fejlett gyártási technológiával, míg a memóriaigényes chiplet-ek régebbi, költséghatékonyabb gyártási technológiát használhatnak.

A chiplet-alapú tervezések moduláris természete rugalmasabb és skálázhatóbb GPU architektúrákat is lehetővé tesz. Például a számítási chiplet-ek száma változtatható a GPU különböző teljesítmény- és energiaigényű változatainak létrehozására, a GPU teljes újratervezése nélkül. Ez a megközelítés a GPU számítási chiplet-ek mellett a specializált gyorsítók vagy memória-technológiák integrálását is elősegítheti.

Ezen a területen folyó kutatások olyan témákat vizsgálnak, mint a 3D-s GPU architektúrák, a chiplet-alapú GPU tervezések és az új interconnect technológiák a többchipes integráció számára. Mivel a gyártási technológia skálázása egyre nagyobb kihívást és költséget jelent, a 3D-s rétegezés és a chiplet-alapú tervezések ígéretes utat kínálnak a GPU architektúrák folyamatos teljesítmény- és energiahatékonysági fejlesztéséhez.

Terület-specifikus Architektúrák az AI/ML-hez

A mesterséges intelligencia (AI) és a gépi tanulás (ML) alkalmazások rohamos növekedése olyan terület-specifikus architektúrák fejlesztését ösztönözte, amelyek optimalizáltak ezekre a workload-okra. Bár a GPU-k voltak az elmúlt években az AI/ML gyorsítás elsődleges platformja, egyre inkább megfigyelhető a specializáltabb hardver térnyerése, amely magasabb teljesítményt és energiahatékonyságot biztosíthat bizonyos AI/ML feladatokhoz.

Ilyen specializált hardver például a neuroprocesszor egység (NPU), amely kifejezetten a mélytanulási hálózatok (deep neural network) gyorsítására tervezett.Itt a magyar fordítás a megadott markdown fájlhoz. A kódban nem fordítottam le a kódot, csak a megjegyzéseket.

(DNN) következtetés és képzés. Az NPU-k gyakran csökkentett pontosságú aritmetikát, specializált memória-hierarchiákat és adatfolyam-architektúrákat alkalmaznak, amelyek a DNN-terhelések egyedi jellemzőihez igazodnak. Az NPU-k példái közé tartozik a Google Tensor Processing Units (TPUs) [Jouppi et al., 2017], az Intel Nervana Neural Network Processors (NNPs) [Rao, 2019] és a Huawei Ascend AI processzorai [Huawei, 2020].

Az AI/ML területspecifikus architektúrák másik feltörekvő trendje az in-memory számítástechnika és az analóg számítástechnika technikáinak alkalmazása. Az in-memory számítási architektúrák célja, hogy csökkentsék az adatmozgással kapcsolatos energiafelhasználást és késleltetést azáltal, hogy a számításokat közvetlenül a memóriában végzik. Az analóg számítástechnikai technikák, mint például a memrisztor-alapú gyorsítók [Shafiee et al., 2016], a eszközök fizikai tulajdonságait kihasználva energiahatékonyabb módon végeznek számításokat a digitális áramkörökhöz képest.

Mivel az AI/ML munkaterhek folyamatosan fejlődnek és egyre változatosabbá válnak, egyre nagyobb szükség van rugalmas és programozható, területspecifikus architektúrákra, amelyek képesek alkalmazkodni a változó követelményekhez. Ennek a rugalmasságnak az elérésére az egyik megközelítés a durvaszemcsés újrakonfigurálható architektúrák (CGRA-k) [Prabhakar et al., 2017] használata, amelyek programozható feldolgozóelemek tömbjét biztosítják, amelyek átépíthetők a különböző adatfolyam-minták és algoritmusok támogatására.

Ezen a területen folyó kutatás olyan témákat vizsgál, mint az AI/ML gyorsítóarchitektúrák, az in-memory és analóg számítástechnikai technikák, valamint a programozható és újrakonfigurálható architektúrák az AI/ML számára. Mivel a GPU-k továbbra is jelentős szerepet játszanak az AI/ML gyorsításában, a jövő GPU-architektúráinak kialakítását valószínűleg befolyásolni fogja a még több specializált hardver integrálásának szükségessége és az ezen munkaterhek egyedi követelményeihez való alkalmazkodás.

Nyitott kutatási problémák és lehetőségek

Annak ellenére, hogy az elmúlt években jelentős előrelépések történtek a GPU-architektúrában és a párhuzamos számításokban, még mindig számos nyitott kutatási probléma vanItt egy magyar fordítás a fájl tartalmára:

  1. Energiahatékonyság: Ahogyan a GPU-k teljesítménye és komplexitása folyamatosan növekszik, az energiahatékonyság javítása egyre kritikusabbá válik. Ezen a területen a kutatási lehetőségek közé tartoznak az áramfogyasztás csökkentésére irányuló új áramkör- és architektúra-technikák, mint például a küszöb alatti számítás, a tápegység-kapcsolás és a dinamikus feszültség- és frekvencia-skálázás.

  2. Skálázhatóság: A GPU-k képessé tétele arra, hogy még nagyobb számú magot és szálat tudjon kezelni, miközben megőrzi a nagy teljesítményt és a programozhatóságot, jelentős kihívást jelent. Ezen a területen a kutatás olyan témákra terjedhet ki, mint a hierarchikus és elosztott GPU-architektúrák, a skálázható memóriarendszerek és azok a programozási modellek, amelyek hatékonyan használhatják ki a jövő GPU-inak párhuzamosságát.

  3. Megbízhatóság és rugalmasság: Mivel a GPU-kat egyre inkább kritikus fontosságú és biztonsági alkalmazásokban használják, a megbízhatóságuk és rugalmasságuk kulcsfontosságú. Ezen a területen a kutatási lehetőségek közé tartoznak az algoritmusalapú hibatűrés, a mentés és visszaállítási mechanizmusok, valamint a rugalmas architektúra-tervezések.

  4. Virtualizáció és több-bérletes üzemeltetés: A GPU-erőforrások hatékony megosztása több alkalmazás és felhasználó között elengedhetetlen a felhő-számítási és adatközponti környezetekben. Ezen a területen a kutatás olyan témákra irányulhat, mint a GPU-virtualizációs technikák, a minőségbiztosítási (QoS) menedzsment, valamint az erőforrás-allokáció és ütemezési algoritmusok a több-bérletes GPU-rendszerekhez.

  5. Programozási modellek és eszközök: A jövő GPU-architektúrák teljesítményének hatékony kihasználása mellett a programozói termelékenység fenntartása folyamatos kihívást jelent. Ezen a területen a kutatási lehetőségek magukban foglalhatják a GPU-kra szabott speciális nyelvek és fordítók, az automatikus hangolási és optimalizálási keretrendszerek, valamint a párhuzamos programok hibakeresési és profilozási eszközeinek fejlesztését.Itt a fájl magyar fordítása, a kód kommentjeinek fordításával:

A GPU-architektúrák folyamatos fejlődése és új alkalmazási területek megjelenése miatt a kutatóknak és mérnököknek meg kell küzdeniük ezekkel és más kihívásokkal, hogy kihasználhassák a párhuzamos számítás teljes potenciálját. A közösség az új architektúra-tervezések, programozási modellek és szoftvereszközök feltárásával segíthet alakítani a GPU-számítás jövőjét, és új áttöréseket elérni a tudományos számítás, mesterséges intelligencia és adatelemzés terén.

További olvasni valók

Azoknak, akik mélyebben szeretnének elmerülni a fejezetben tárgyalt témákban, a következő erőforrásokat ajánljuk:

  1. Jouppi, N. P., Young, C., Patil, N., Patterson, D., Agrawal, G., Bajwa, R., ... & Yoon, D. (2017). In-datacenter performance analysis of a tensor processing unit. In Proceedings of the 44th Annual International Symposium on Computer Architecture (pp. 1-12). https://dl.acm.org/doi/abs/10.1145/3079856.3080246 (opens in a new tab)

  2. Ham, T. J., Wu, L., Sundaram, N., Satish, N., & Martonosi, M. (2016). Graphicionado: A high-performance and energy-efficient accelerator for graph analytics. In 2016 49th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO) (pp. 1-13). IEEE. https://ieeexplore.ieee.org/abstract/document/7783759 (opens in a new tab)

  3. AMD. (2015). AMD Heterogeneous System Architecture (HSA). https://www.amd.com/en/technologies/hsa (opens in a new tab)

  4. NVIDIA. (2020). CUDA Unified Memory. https://developer.nvidia.com/blog/unified-memory-cuda-beginners/ (opens in a new tab)

  5. Jeddeloh, J., & Keeth, B. (2012). Hybrid memory cube new DRAM architecture increases density and performance. In 2012 symposium on VLSI technology (VLSIT) (pp. 87-88). IEEE. https://ieeexplore.ieee.org/abstract/document/6243767 (opens in a new tab)

  6. Lee, J. H., Lim, D., Jeong, H.,Kérjük, az alábbi markdown fájl magyar fordítását. A kód esetében ne fordítsa le a kódot, csak a megjegyzéseket. Itt van a fájl:

Kim, H., Song, T., Lee, J., ... és Kim, G. (2014). Egy 1,2 V 8 Gb 8-csatornás 128 GB/s nagy sávszélességű memória (HBM) toronyszerű DRAM 29 nm-es folyamattal és TSV-vel készült hatékony mikrobumpás I/O tesztmódszerekkel. A 2014-es IEEE Nemzetközi Szilárdtest-áramköri Konferencia Műszaki Összefoglalójában (ISSCC) (432-433. oldal). IEEE. https://ieeexplore.ieee.org/abstract/document/6757501 (opens in a new tab)

  1. Demir, Y., Pan, Y., Song, S., Hardavellas, N., Kim, J. és Memik, G. (2018). Galaxy: Egy nagy teljesítményű, energiahatékony többcsipes architektúra fotonika alapú összekapcsolásokkal. A Számítástechnika 28. ACM Nemzetközi Konferenciájának Eljárásaiban (303-312. oldal). https://dl.acm.org/doi/abs/10.1145/2597652.2597664 (opens in a new tab)

  2. Rao, T. (2019). Az Intel Nervana Neurális Hálózati Processzorok (NNP) újraértelmezik az AI szilíciumot. [https://www.intel.com/content/www/us/en/artificial-intelligence (opens in a new tab)