Connect with us

Nachrichten

NVIDIA Ada Lovelace „GeForce RTX 40“ Gaming-GPU im Detail: Doppelte ROPs, riesiger L2-Cache und 50 % mehr FP32-Einheiten als Ampere, Tensor-Kerne der 4. Generation und RT-Kerne der 3. Generation

NVIDIA Ada Lovelace „GeForce RTX 40“ Gaming-GPU im Detail: Doppelte ROPs, riesiger L2-Cache und 50 % mehr FP32-Einheiten als Ampere, Tensor-Kerne der 4. Generation und RT-Kerne der 3. Generation

Details zur NVIDIA Ada Lovelace Gaming GPU, die die Grafikkarten der GeForce RTX 40-Serie antreiben wird, wurden bekannt gegeben. Die neuen Informationen stammen aus Kopte7kimi & spricht über das Blockdiagramm der Architektur der nächsten Generation.

Detailliertes Blockdiagramm der NVIDIA GeForce Ada Lovelace GPU SM: Größer und besser denn je für Gamer!

Die NVIDIA Ada Lovelace GPU-Architektur ist kein Geheimnis mehr. Wir haben die spezifischen Konfigurationen kennengelernt, die die SKUs der nächsten Generation der AD10*-Serie für Grafikkarten der GeForce RTX 40-Serie antreiben werden, und wir haben auch durchgesickerte Spezifikationen der Produktreihe gesehen. Jetzt ist es an der Zeit, nur über den Grafikchip der nächsten Generation selbst zu sprechen.

NVIDIA GeForce RTX 4090 erhält 24 GB GDDR6X-Speicher bei 21 Gbit/s und 600 W TDP, RTX 4070 erhält 12 GB GDDR6-Speicher bei 18 Gbit/s und 300 W TDP

NVIDIA AD102 ‚Ada Lovelace‘ Gaming GPU ‚SM‘ Blockdiagramm (Bildnachweis: Kopite7kimi):

NVIDIA GA102 ‚Ampere‘ Gaming GPU ‚SM‘ Blockdiagramm:

Beginnend mit der GPU-Konfiguration vergleicht Kopite7kimi die AD102-Spitzen-GPU mit verschiedenen anderen GPUs aus dem grünen Team. Dazu gehören der spielorientierte Ampere GA102 und der Turing TU102, während der Liste auch der HPC-fokussierte Hopper GH100 und der Ampere GA100 hinzugefügt wurden. Ich vergleiche den AD102 nur mit seinen Gaming-Vorgängern, da sich die HPC-orientierten Designs stark von den verbraucherorientierten Angeboten unterscheiden.

NVIDIA- und AMD-GPU-Preisaktualisierung für Mai 2022: GeForce-Grafikkarten jetzt 14 % über UVP, Radeon nur 6 % über UVP

Die NVIDIA Ada Lovelace AD102 GPU verfügt über bis zu 12 GPC (Graphics Processing Clusters). Dies ist eine Steigerung von 70 % gegenüber GA102, das nur 7 GPCs aufweist. Jede GPU besteht aus 6 TPCs und 2 SMs, was der gleichen Konfiguration wie der vorhandene Chip entspricht. Jeder SM (Streaming Multiprocessor) wird vier Unterkerne beherbergen, was auch der GA102-GPU entspricht. Was sich geändert hat, ist die FP32- und die INT32-Kernkonfiguration. Jeder Sub-Core enthält 128 FP32-Einheiten, aber kombinierte FP32+INT32-Einheiten werden bis zu 192 betragen. Dies liegt daran, dass die FP32-Einheiten nicht denselben Sub-Core wie die IN32-Einheiten teilen. Die 128 FP32-Kerne sind von den 64 INT32-Kernen getrennt.

Insgesamt besteht also jeder Sub-Core aus 128 FP32 plus 64 INT32-Einheiten für insgesamt 192 Einheiten. Jedes SM verfügt über insgesamt 512 FP32-Einheiten plus 256 INT32-Einheiten für insgesamt 768 Einheiten. Und da es insgesamt 24 SM-Einheiten (2 pro GPC) gibt, sehen wir uns 12.288 FP32-Einheiten und 6.144 INT32-Einheiten für insgesamt 18.432 Kerne an. Jeder SM enthält auch zwei Umbruchpläne (32 Threads/CLK) für 64 Umbrüche pro SM. Dies ist eine 50-prozentige Steigerung der Kerne (FP32+INT32) und eine 33-prozentige Steigerung der Wraps/Threads im Vergleich zur GA102-GPU.

NVIDIA Ada Lovelace GPU-Spezifikationen „vorläufig“:

GPU-NameAD102GA102TU102GA100GH100
GPC12 (pro GPU)1,7x2x1,5x1,5x
TPC6 (Pro GPC)DasselbeDasselbe0,75x0,67x
SM2 (pro TPC)DasselbeDasselbeDasselbeDasselbe
Unterkern4 (pro SM)DasselbeDasselbeDasselbeDasselbe
FP32128 (pro SM)Dasselbe2x2xDasselbe
FP32+INT32192 (pro SM)1,5x1,5x1,5xDasselbe
Warps64 (pro SM)1,33x2xDasselbeDasselbe
Fäden2048 (pro SM)1,33x2xDasselbeDasselbe
L1-Cache192 KB (pro SM)1,5x2xDasselbe0,75x
L2-Cache96 MB (pro GPU)16x16x2,4x1,6x
ROPs32 (Pro GPC)2x2x2x2x

Wenn wir zum Cache übergehen, ist dies ein weiteres Segment, in dem NVIDIA den vorhandenen Ampere-GPUs einen großen Schub gegeben hat. Die Ada Lovelace-GPUs werden 192 KB L1-Cache pro SM packen, eine Steigerung von 50 % gegenüber Ampere. Das sind insgesamt 4,5 MB L1-Cache auf der obersten AD102-GPU. Der L2-Cache wird wie in den Leaks erwähnt auf 96 MB erhöht. Dies ist eine 16-fache Steigerung gegenüber der Ampere-GPU, die nur 6 MB L2-Cache hostet. Der Cache wird über die GPU geteilt.

Schließlich haben wir die ROPs, die ebenfalls auf 32 pro GPC erhöht werden, eine Steigerung von 2x gegenüber Ampere. Sie sehen bis zu 384 ROPs auf dem Flaggschiff der nächsten Generation gegenüber nur 112 auf der schnellsten Ampere-GPU, der RTX 3090 Ti. Es wird auch die neuesten Tensor- und RT-Kerne der 3. Generation (Raytracing) der 4. Generation in die Ada Lovelace-GPUs geben, die dazu beitragen werden, die DLSS- und Raytracing-Leistung auf die nächste Stufe zu heben. Insgesamt bietet die Ada Lovelace AD102 GPU:

  • 2x GPCs (gegenüber Ampere)
  • 50 % mehr Kerne (im Vergleich zu Ampere)
  • 50 % mehr L1-Cache (gegenüber Ampere)
  • 16x mehr L2-Cache (im Vergleich zu Ampere)
  • Verdoppeln Sie die ROPs (gegenüber Ampere)
  • Tensor-Kerne der 4. Generation und RT-Kerne der 3. Generation

Beachten Sie, dass Taktraten, die angeblich zwischen 2 und 3 GHz liegen, nicht in die Gleichung einbezogen werden, sodass sie auch eine wichtige Rolle bei der Verbesserung der Leistung pro Kern im Vergleich zu Ampere spielen. Die Grafikkarten der NVIDIA GeForce RTX 40-Serie mit den Gaming-GPUs der nächsten Generation von Ada Lovelace werden voraussichtlich in der zweiten Hälfte des Jahres 2022 auf den Markt kommen und sollen denselben TSMC 4N-Prozessknoten wie die Hopper H100-GPU verwenden.

NVIDIA CUDA GPU (GERÜCHTET) Vorläufig:

GrafikkarteTU102GA102AD102
Flaggschiff-SKURTX 2080 TiRTX 3090TiRTX4090?
Die ArchitekturTuringAmpereAda Lovelace
VerfahrenTSMC 12 nm NFFSamsung 8nmTSMC 4N?
Die Größe754 mm2628 mm2~600mm2
Grafikverarbeitungscluster (GPC)6712
Texturverarbeitungscluster (TPC)364272
Streaming-Multiprozessoren (SM)7284144
CUDA-Kerne46081075218432
L2-Cache6MB6MB96MB
Theoretische TFLOPs16 TFLOPs40 TFLOPs~90 TFLOPs?
SpeichertypGDDR6GDDR6XGDDR6X
Speicherkapazität11 GB (2080Ti)24 GB (3090Ti)24 GB (4090?)
Speichergeschwindigkeit14 Gbit/s21 Gbit/s24 Gbit/s?
Speicherbandbreite616 GB/s1,008 GB/s1152 GB/s?
Speicherbus384-Bit384-Bit384-Bit
PCIe-SchnittstellePCIe-Gen 3.0PCIe-Gen 4.0PCIe-Gen 4.0
TGP250W350W600 W?
FreigebenSeptember 201820. Sept2H 2022 (noch offen)