Nachrichten
AMD aktualisiert die Instinct MI300-Serie dieses Jahr mit dem KI-Beschleuniger MI350 mit 4-nm-Knoten
AMD scheint eine 4-nm-Aktualisierung seiner MI300-KI-Beschleuniger, bekannt als MI350, vorzubereiten, die für später in diesem Jahr geplant ist.
Der AMD MI350 AI Accelerator verfügt über eine aktualisierte 4-nm-Architektur und soll noch in diesem Jahr auf den Markt kommen
AMDs aktuelle MI300-Reihe besteht aus dem KI-optimierten MI300X und den rechenoptimierten MI300A-Beschleunigern, aber es sieht so aus, als ob das Unternehmen plant, sein Portfolio zu erweitern. Wir haben kürzlich das Aufkommen des MI388X gesehen, bei dem es sich möglicherweise um eine exportkonforme Variante für China handelt. AMD gab jedoch an, dass der Versand nicht möglich sei. Der MI388X sollte wahrscheinlich ein weiteres CDNA 3-Angebot sein, das eine 5-nm- und 6-nm-Prozesstechnologie nutzt, aber es sieht so aus, als ob AMD für später in diesem Jahr eine ordentliche Aktualisierung seiner Instinct-Familie geplant hat.
Laut einem Bericht von TrendForceEs sieht so aus, als würde AMD eine neue Komponente namens Instinct MI350 auf den Markt bringen, die eine aktualisierte CDNA 3-Architektur nutzen wird, die den 4-nm-Prozessknoten von TSMC nutzt. Während die Details zum Instinct MI350 dürftig sind, wurde kürzlich von AMD selbst angedeutet, dass sie in zukünftigen Aktualisierungen der Instinct MI300-Serie höhere HBM3E-Kapazitäten anbieten werden. Höhere HBM-Kapazitäten gepaart mit einer fein abgestimmten Architektur auf dem 4-nm-Knoten können also zu einigen ordentlichen Gewinnen führen.
Darüber hinaus weist TrendForce darauf hin, dass die Ausweitung der Exportkontrollen nun nicht nur die bisher eingeschränkten KI-Chips von NVIDIA und AMD umfasst, wie etwa die Serien NVIDIA A100/H100, AMD MI250/300, NVIDIA A800, H800, L40, L40S und RTX4090. aber auch ihre Nachfolger der nächsten Generation wie NVIDIAs H200, B100, B200, GB200 und AMDs MI350-Serie. Als Reaktion darauf haben HPC-Hersteller schnell Produkte entwickelt, die den neuen TPP- und PD-Standards entsprechen, wie beispielsweise die angepassten H20/L20/L2 von NVIDIA, die weiterhin exportierbar sind.
Videocardz konnte auch eine Auflistung von AMD Singapur entdecken, die die Instinct MI350-Beschleunigerreihe bestätigt. Das Produkt wurde bereits zur Siliziumvorbereitung und -optimierung eingereicht.
Es sei daran erinnert, dass AMD im KI-Bereich sowohl mit NVIDIA als auch mit Intel konkurrieren wird. Die Blackwell B100-GPUs sind in Produktion und B100/B200 werden bald an Kunden ausgeliefert. Unterdessen kündigte Intel auch seine Gaudi 3-Beschleuniger an, die im Vergleich zu den NVIDIA H100-GPUs eine bis zu 50 % schnellere KI-Rechenleistung bieten. Der Raum heizt sich also auf. Bei den jüngsten MLPerf-Benchmarks waren NVIDIA und Intel die einzigen, die ihre KI-Leistungsbenchmarks übermittelten, während AMD das Rampenlicht verpasste, da es keine Zahlen übermittelte.
TrendForce hat außerdem die vollständige Liste der Produkte veröffentlicht, die von der neuesten Version der US-Exportkontrollen gegen China betroffen sind. Dazu gehören mehrere aktuelle und kommende GPUs, darunter die Serien Instinct MI388X und MI350 von AMD.
US-exportkontrollierte Produkte (beschränkt für China / Stand 29. März):
Verkäufer | Produkt | Prozesstechnik | Veröffentlichungsdatum |
---|---|---|---|
NVIDIA | GB200 | 4 nm (TSMC) | 2H 2024 |
NVIDIA | B200 | 4 nm (TSMC) | 2H 2024 |
NVIDIA | B100 | 4 nm (TSMC) | 2H 2024 |
NVIDIA | H200 | 4 nm (TSMC) | 11/2023 |
NVIDIA | H100 | 4 nm (TSMC) | 03/2022 |
NVIDIA | H800 | 4 nm (TSMC) | 03/2022 |
NVIDIA | L40/L40S | 5 nm (TSMC) | 10/2022 |
NVIDIA | RTX 4090 | 5 nm (TSMC) | 10/2022 |
NVIDIA | A100 | 7 nm (TSMC) | 05/2020 |
NVIDIA | A800 | 7 nm (TSMC) | 05/2020 |
AMD | MI250 | 6 nm (TSMC) | 11/2021 |
AMD | MI250X | 6 nm (TSMC) | 11/2021 |
AMD | MI300/MI309 | 5 nm (TSMC) | 11/2021 |
AMD | MI300X/MI388X | 5 nm/6 nm (TSMC) | 12/2023 |
AMD | MI350 | 4 nm (TSMC) | 2H 2024 |
AMD hat außerdem seinen KI-Beschleuniger MI400 der nächsten Generation bestätigt, der 2025 auf den Markt kommen soll und über eine leistungsfähigere Architektur verfügt, die auf das KI-Zeitalter abgestimmt ist. AMD arbeitet außerdem an seiner ROCm-Software-Suite und hat bestimmte Blöcke als Open Source bereitgestellt, um seine Leistung für KI-Arbeitslasten zu optimieren.
AMD Radeon Instinct-Beschleuniger
Beschleunigername | AMD Instinct MI400 | AMD Instinct MI350X | AMD Instinct MI300X | AMD Instinct MI300A | AMD Instinct MI250X | AMD Instinct MI250 | AMD Instinct MI210 | AMD Instinct MI100 | AMD Radeon Instinct MI60 | AMD Radeon Instinct MI50 | AMD Radeon Instinct MI25 | AMD Radeon Instinct MI8 | AMD Radeon Instinct MI6 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
CPU-Architektur | Zen 5 (Exascale APU) | N / A | N / A | Zen 4 (Exascale APU) | N / A | N / A | N / A | N / A | N / A | N / A | N / A | N / A | N / A |
GPU-Architektur | CDNA 4 | CDNA 3+? | Aqua Vanjaram (CDNA 3) | Aqua Vanjaram (CDNA 3) | Aldebaran (CDNA 2) | Aldebaran (CDNA 2) | Aldebaran (CDNA 2) | Arcturus (CDNA 1) | Vega 20 | Vega 20 | Vega 10 | Fidschi XT | Polaris 10 |
GPU-Prozessknoten | 4nm | 4nm | 5nm+6nm | 5nm+6nm | 6nm | 6nm | 6nm | 7-nm-FinFET | 7-nm-FinFET | 7-nm-FinFET | 14-nm-FinFET | 28nm | 14-nm-FinFET |
GPU-Chiplets | Noch offen | Noch offen | 8 (MCM) | 8 (MCM) | 2 (MCM) 1 (pro Würfel) |
2 (MCM) 1 (pro Würfel) |
2 (MCM) 1 (pro Würfel) |
1 (monolithisch) | 1 (monolithisch) | 1 (monolithisch) | 1 (monolithisch) | 1 (monolithisch) | 1 (monolithisch) |
GPU-Kerne | Noch offen | Noch offen | 19.456 | 14.592 | 14.080 | 13.312 | 6656 | 7680 | 4096 | 3840 | 4096 | 4096 | 2304 |
GPU-Taktgeschwindigkeit | Noch offen | Noch offen | 2100 MHz | 2100 MHz | 1700 MHz | 1700 MHz | 1700 MHz | 1500 MHz | 1800 MHz | 1725 MHz | 1500 MHz | 1000 MHz | 1237 MHz |
INT8 Berechnen | Noch offen | Noch offen | 2614 TOPS | 1961 TOPS | 383 TOPs | 362 TOPS | 181 TOPS | 92,3 TOPS | N / A | N / A | N / A | N / A | N / A |
FP16 Computing | Noch offen | Noch offen | 1,3 PFLOPs | 980,6 TFLOPs | 383 TFLOPs | 362 TFLOPs | 181 TFLOPs | 185 TFLOPs | 29,5 TFLOPs | 26,5 TFLOPs | 24,6 TFLOPs | 8,2 TFLOPs | 5,7 TFLOPs |
FP32-Berechnung | Noch offen | Noch offen | 163,4 TFLOPs | 122,6 TFLOPs | 95,7 TFLOPs | 90,5 TFLOPs | 45,3 TFLOPs | 23,1 TFLOPs | 14,7 TFLOPs | 13,3 TFLOPs | 12,3 TFLOPs | 8,2 TFLOPs | 5,7 TFLOPs |
FP64-Rechner | Noch offen | Noch offen | 81,7 TFLOPs | 61,3 TFLOPs | 47,9 TFLOPs | 45,3 TFLOPs | 22,6 TFLOPs | 11,5 TFLOPs | 7,4 TFLOPs | 6,6 TFLOPs | 768 GFLOPs | 512 GFLOPs | 384 GFLOPs |
VRAM | Noch offen | HBM3e | 192 GB HBM3 | 128 GB HBM3 | 128 GB HBM2e | 128 GB HBM2e | 64 GB HBM2e | 32 GB HBM2 | 32 GB HBM2 | 16 GB HBM2 | 16 GB HBM2 | 4 GB HBM1 | 16 GB GDDR5 |
Infinity-Cache | Noch offen | Noch offen | 256 MB | 256 MB | N / A | N / A | N / A | N / A | N / A | N / A | N / A | N / A | N / A |
Erinnerungsuhr | Noch offen | Noch offen | 5,2 Gbit/s | 5,2 Gbit/s | 3,2 Gbit/s | 3,2 Gbit/s | 3,2 Gbit/s | 1200 MHz | 1000 MHz | 1000 MHz | 945 MHz | 500 MHz | 1750 MHz |
Speicherbus | Noch offen | Noch offen | 8192-Bit | 8192-Bit | 8192-Bit | 8192-Bit | 4096-Bit | 4096-Bit-Bus | 4096-Bit-Bus | 4096-Bit-Bus | 2048-Bit-Bus | 4096-Bit-Bus | 256-Bit-Bus |
Speicherbandbreite | Noch offen | Noch offen | 5,3 TB/s | 5,3 TB/s | 3,2 TB/s | 3,2 TB/s | 1,6 TB/s | 1,23 TB/s | 1 TB/s | 1 TB/s | 484 GB/s | 512 GB/s | 224 GB/s |
Formfaktor | Noch offen | Noch offen | OAM | APU SH5-Sockel | OAM | OAM | Dual-Slot-Karte | Dual-Slot, volle Länge | Dual-Slot, volle Länge | Dual-Slot, volle Länge | Dual-Slot, volle Länge | Doppelschlitz, halbe Länge | Einzelschlitz, volle Länge |
Kühlung | Noch offen | Noch offen | Passive Kühlung | Passive Kühlung | Passive Kühlung | Passive Kühlung | Passive Kühlung | Passive Kühlung | Passive Kühlung | Passive Kühlung | Passive Kühlung | Passive Kühlung | Passive Kühlung |
TDP (max.) | Noch offen | Noch offen | 750W | 760W | 560W | 500W | 300W | 300W | 300W | 300W | 300W | 175W | 150W |