Nachrichten
NVIDIA Ada Lovelace „GeForce RTX 40“ Gaming-GPU im Detail: Doppelte ROPs, riesiger L2-Cache und 50 % mehr FP32-Einheiten als Ampere, Tensor-Kerne der 4. Generation und RT-Kerne der 3. Generation

Details zur NVIDIA Ada Lovelace Gaming GPU, die die Grafikkarten der GeForce RTX 40-Serie antreiben wird, wurden bekannt gegeben. Die neuen Informationen stammen aus Kopte7kimi & spricht über das Blockdiagramm der Architektur der nächsten Generation.
Detailliertes Blockdiagramm der NVIDIA GeForce Ada Lovelace GPU SM: Größer und besser denn je für Gamer!
Die NVIDIA Ada Lovelace GPU-Architektur ist kein Geheimnis mehr. Wir haben die spezifischen Konfigurationen kennengelernt, die die SKUs der nächsten Generation der AD10*-Serie für Grafikkarten der GeForce RTX 40-Serie antreiben werden, und wir haben auch durchgesickerte Spezifikationen der Produktreihe gesehen. Jetzt ist es an der Zeit, nur über den Grafikchip der nächsten Generation selbst zu sprechen.
NVIDIA AD102 ‚Ada Lovelace‘ Gaming GPU ‚SM‘ Blockdiagramm (Bildnachweis: Kopite7kimi):
NVIDIA GA102 ‚Ampere‘ Gaming GPU ‚SM‘ Blockdiagramm:
Beginnend mit der GPU-Konfiguration vergleicht Kopite7kimi die AD102-Spitzen-GPU mit verschiedenen anderen GPUs aus dem grünen Team. Dazu gehören der spielorientierte Ampere GA102 und der Turing TU102, während der Liste auch der HPC-fokussierte Hopper GH100 und der Ampere GA100 hinzugefügt wurden. Ich vergleiche den AD102 nur mit seinen Gaming-Vorgängern, da sich die HPC-orientierten Designs stark von den verbraucherorientierten Angeboten unterscheiden.
Die NVIDIA Ada Lovelace AD102 GPU verfügt über bis zu 12 GPC (Graphics Processing Clusters). Dies ist eine Steigerung von 70 % gegenüber GA102, das nur 7 GPCs aufweist. Jede GPU besteht aus 6 TPCs und 2 SMs, was der gleichen Konfiguration wie der vorhandene Chip entspricht. Jeder SM (Streaming Multiprocessor) wird vier Unterkerne beherbergen, was auch der GA102-GPU entspricht. Was sich geändert hat, ist die FP32- und die INT32-Kernkonfiguration. Jeder Sub-Core enthält 128 FP32-Einheiten, aber kombinierte FP32+INT32-Einheiten werden bis zu 192 betragen. Dies liegt daran, dass die FP32-Einheiten nicht denselben Sub-Core wie die IN32-Einheiten teilen. Die 128 FP32-Kerne sind von den 64 INT32-Kernen getrennt.
Insgesamt besteht also jeder Sub-Core aus 128 FP32 plus 64 INT32-Einheiten für insgesamt 192 Einheiten. Jedes SM verfügt über insgesamt 512 FP32-Einheiten plus 256 INT32-Einheiten für insgesamt 768 Einheiten. Und da es insgesamt 24 SM-Einheiten (2 pro GPC) gibt, sehen wir uns 12.288 FP32-Einheiten und 6.144 INT32-Einheiten für insgesamt 18.432 Kerne an. Jeder SM enthält auch zwei Umbruchpläne (32 Threads/CLK) für 64 Umbrüche pro SM. Dies ist eine 50-prozentige Steigerung der Kerne (FP32+INT32) und eine 33-prozentige Steigerung der Wraps/Threads im Vergleich zur GA102-GPU.
NVIDIA Ada Lovelace GPU-Spezifikationen „vorläufig“:
GPU-Name | AD102 | GA102 | TU102 | GA100 | GH100 |
---|---|---|---|---|---|
GPC | 12 (pro GPU) | 1,7x | 2x | 1,5x | 1,5x |
TPC | 6 (Pro GPC) | Dasselbe | Dasselbe | 0,75x | 0,67x |
SM | 2 (pro TPC) | Dasselbe | Dasselbe | Dasselbe | Dasselbe |
Unterkern | 4 (pro SM) | Dasselbe | Dasselbe | Dasselbe | Dasselbe |
FP32 | 128 (pro SM) | Dasselbe | 2x | 2x | Dasselbe |
FP32+INT32 | 192 (pro SM) | 1,5x | 1,5x | 1,5x | Dasselbe |
Warps | 64 (pro SM) | 1,33x | 2x | Dasselbe | Dasselbe |
Fäden | 2048 (pro SM) | 1,33x | 2x | Dasselbe | Dasselbe |
L1-Cache | 192 KB (pro SM) | 1,5x | 2x | Dasselbe | 0,75x |
L2-Cache | 96 MB (pro GPU) | 16x | 16x | 2,4x | 1,6x |
ROPs | 32 (Pro GPC) | 2x | 2x | 2x | 2x |
Wenn wir zum Cache übergehen, ist dies ein weiteres Segment, in dem NVIDIA den vorhandenen Ampere-GPUs einen großen Schub gegeben hat. Die Ada Lovelace-GPUs werden 192 KB L1-Cache pro SM packen, eine Steigerung von 50 % gegenüber Ampere. Das sind insgesamt 4,5 MB L1-Cache auf der obersten AD102-GPU. Der L2-Cache wird wie in den Leaks erwähnt auf 96 MB erhöht. Dies ist eine 16-fache Steigerung gegenüber der Ampere-GPU, die nur 6 MB L2-Cache hostet. Der Cache wird über die GPU geteilt.
Schließlich haben wir die ROPs, die ebenfalls auf 32 pro GPC erhöht werden, eine Steigerung von 2x gegenüber Ampere. Sie sehen bis zu 384 ROPs auf dem Flaggschiff der nächsten Generation gegenüber nur 112 auf der schnellsten Ampere-GPU, der RTX 3090 Ti. Es wird auch die neuesten Tensor- und RT-Kerne der 3. Generation (Raytracing) der 4. Generation in die Ada Lovelace-GPUs geben, die dazu beitragen werden, die DLSS- und Raytracing-Leistung auf die nächste Stufe zu heben. Insgesamt bietet die Ada Lovelace AD102 GPU:
- 2x GPCs (gegenüber Ampere)
- 50 % mehr Kerne (im Vergleich zu Ampere)
- 50 % mehr L1-Cache (gegenüber Ampere)
- 16x mehr L2-Cache (im Vergleich zu Ampere)
- Verdoppeln Sie die ROPs (gegenüber Ampere)
- Tensor-Kerne der 4. Generation und RT-Kerne der 3. Generation
Beachten Sie, dass Taktraten, die angeblich zwischen 2 und 3 GHz liegen, nicht in die Gleichung einbezogen werden, sodass sie auch eine wichtige Rolle bei der Verbesserung der Leistung pro Kern im Vergleich zu Ampere spielen. Die Grafikkarten der NVIDIA GeForce RTX 40-Serie mit den Gaming-GPUs der nächsten Generation von Ada Lovelace werden voraussichtlich in der zweiten Hälfte des Jahres 2022 auf den Markt kommen und sollen denselben TSMC 4N-Prozessknoten wie die Hopper H100-GPU verwenden.
NVIDIA CUDA GPU (GERÜCHTET) Vorläufig:
Grafikkarte | TU102 | GA102 | AD102 |
---|---|---|---|
Flaggschiff-SKU | RTX 2080 Ti | RTX 3090Ti | RTX4090? |
Die Architektur | Turing | Ampere | Ada Lovelace |
Verfahren | TSMC 12 nm NFF | Samsung 8nm | TSMC 4N? |
Die Größe | 754 mm2 | 628 mm2 | ~600mm2 |
Grafikverarbeitungscluster (GPC) | 6 | 7 | 12 |
Texturverarbeitungscluster (TPC) | 36 | 42 | 72 |
Streaming-Multiprozessoren (SM) | 72 | 84 | 144 |
CUDA-Kerne | 4608 | 10752 | 18432 |
L2-Cache | 6MB | 6MB | 96MB |
Theoretische TFLOPs | 16 TFLOPs | 40 TFLOPs | ~90 TFLOPs? |
Speichertyp | GDDR6 | GDDR6X | GDDR6X |
Speicherkapazität | 11 GB (2080Ti) | 24 GB (3090Ti) | 24 GB (4090?) |
Speichergeschwindigkeit | 14 Gbit/s | 21 Gbit/s | 24 Gbit/s? |
Speicherbandbreite | 616 GB/s | 1,008 GB/s | 1152 GB/s? |
Speicherbus | 384-Bit | 384-Bit | 384-Bit |
PCIe-Schnittstelle | PCIe-Gen 3.0 | PCIe-Gen 4.0 | PCIe-Gen 4.0 |
TGP | 250W | 350W | 600 W? |
Freigeben | September 2018 | 20. Sept | 2H 2022 (noch offen) |
