Nachrichten

AMD reagiert auf die H100 TensorRT-LLM-Ergebnisse von NVIDIA und zeigt erneut, dass die MI300X-GPU mit 30 % besserer Leistung durch optimierten KI-Software-Stack führend ist

Dezember 15, 2023

AMD hat antwortete zu NVIDIAs H100 TensorRT-LLM-Zahlen, wobei der MI300X bei der Ausführung optimierter Software erneut in den KI-Benchmarks führend ist.

AMD und NVIDIA befinden sich in einem erbitterten Kampf, in dem beide GPU-Hersteller mit optimierten Software-Stacks für H100- und MI300X-Chips die KI-Überlegenheit gegenüber anderen behaupten

Vor zwei Tagen veröffentlichte NVIDIA neue Benchmarks seiner Hopper H100-GPUs, um zu zeigen, dass die Leistung ihrer Chips viel besser ist als die, die AMD während seines „Advancing AI“-Events präsentierte. Das rote Team verglich seine brandneue Instinct MI300X-GPU mit dem Hopper H100-Chip, der mittlerweile über ein Jahr alt ist, aber nach wie vor die beliebteste Wahl in der KI-Branche ist. Die von AMD verwendeten Benchmarks verwendeten nicht die optimierten Bibliotheken wie TensorRT-LLM, was den KI-Chips von NVIDIA einen großen Schub verleiht.

Die Verwendung von TensorRT-LLM führte dazu, dass die Hopper H100-GPU eine Leistungssteigerung von fast 50 % gegenüber der Instinct MI300X-GPU von AMD erzielte. Jetzt feuert AMD mit voller Kraft auf NVIDIA zurück und zeigt, wie der MI300X immer noch eine schnellere Leistung als der H100 behält, selbst wenn der Hopper H100 seinen optimierten Software-Stack ausführt. Laut AMD sind die von NVIDIA veröffentlichten Zahlen:

Verwendet TensorRT-LLM auf H100 anstelle von vLLM, das in AMD-Benchmarks verwendet wird
Verglichene Leistung des FP16-Datentyps auf AMD Instinct MI300X-GPUs mit dem FP8-Datentyp auf H100
Die von AMD veröffentlichten Leistungsdaten wurden von relativen Latenzzahlen in absoluten Durchsatz umgewandelt

Deshalb hat sich AMD für einen faireren Vergleich entschieden und anhand der neuesten Zahlen sehen wir, dass der Instinct MI300X auf vLLM eine 30 % schnellere Leistung bietet als der Hopper H100 auf TensorRT-LLM.

MI300X bis H100 mit vLLM für beide.

Bei unserer Einführungsveranstaltung Anfang Dezember haben wir einen 1,4-fachen Leistungsvorteil für MI300X gegenüber H100 bei Verwendung gleichwertiger Datentypen und Bibliothekseinstellungen hervorgehoben. Mit den neuesten Optimierungen, die wir vorgenommen haben, hat sich dieser Leistungsvorteil auf das 2,1-fache erhöht.

Wir haben vLLM aufgrund der breiten Akzeptanz durch die Benutzer- und Entwicklergemeinschaft ausgewählt und unterstützen sowohl AMD- als auch Nvidia-GPUs.

MI300X mit vLLM vs. H100 mit Nvidias optimiertem TensorRT-LLM

Selbst wenn wir TensorRT-LLM für H100, wie von unserem Konkurrenten beschrieben, und vLLM für MI300X verwenden, zeigen wir immer noch eine 1,3-fache Verbesserung der Latenz.

Gemessene Latenzergebnisse für den MI300X FP16-Datensatz im Vergleich zu H100 unter Verwendung von TensorRT-LLM und FP8-Datensatz.

MI300X zeigt weiterhin einen Leistungsvorteil bei der Messung der absoluten Latenz, selbst wenn FP8 und TensorRT-LLM mit geringerer Genauigkeit für H100 im Vergleich zu vLLM und der FP16-Datentyp mit höherer Genauigkeit für MI300X verwendet werden.

Aufgrund seiner Beliebtheit verwenden wir den Datentyp FP16. Derzeit unterstützt vLLM FP8 nicht.

Diese Ergebnisse zeigen erneut, dass MI300X mit FP16 mit H100 vergleichbar ist und die besten von Nvidia empfohlenen Leistungseinstellungen aufweist, selbst wenn FP8 und TensorRT-LLM verwendet werden.

über AMD

Sicherlich sind diese schwankenden Zahlen etwas unerwartet, aber wenn man bedenkt, wie wichtig KI für Unternehmen wie AMD, NVIDIA und Intel geworden ist, können wir damit rechnen, dass in Zukunft noch mehr solcher Beispiele bekannt werden. Sogar Intel hat kürzlich erklärt, dass die gesamte Branche motiviert sei, NVIDIAs CUDA-Dominanz in der Branche zu beenden. Tatsache ist derzeit, dass NVIDIA über jahrelange Software-Expertise im KI-Segment verfügt und der Instinct MI300X zwar einige scheußliche Spezifikationen bietet, aber bald mit einer noch schnelleren Hopper-Lösung in Form von H200 und den kommenden Blackwell B100-GPUs konkurrieren wird 2024.

TSMC bewegt sich in Richtung — TSMC führt das KI-Rennen an, indem es KI-Chips der nächsten Generation für NVIDIA und AMD produziert. (Bildquelle: Wccftech)

Intel ist auch bereit, seine Gaudi 3-Beschleuniger im Jahr 2024 auf den Markt zu bringen, was den KI-Bereich weiter anheizen würde, aber in gewisser Weise würde dieser Wettbewerb zu einer lebendigeren und lebendigeren KI-Branche führen, in der jeder Anbieter weiterhin innovativ ist und sich vom anderen abhebt und seinen Kunden Angebote macht bessere Fähigkeiten und noch schnellere Leistung. Obwohl NVIDIA seit Jahren keine Konkurrenz mehr hat, hat es in diesem Segment weiterhin Innovationen hervorgebracht, und da AMD und Intel ihre KI-Produktion und Software steigern, können wir davon ausgehen, dass sie mit noch besserer eigener Hardware/Software reagieren werden.

DigiDeutsche

AMD reagiert auf die H100 TensorRT-LLM-Ergebnisse von NVIDIA und zeigt erneut, dass die MI300X-GPU mit 30 % besserer Leistung durch optimierten KI-Software-Stack führend ist

AMD und NVIDIA befinden sich in einem erbitterten Kampf, in dem beide GPU-Hersteller mit optimierten Software-Stacks für H100- und MI300X-Chips die KI-Überlegenheit gegenüber anderen behaupten