Nachrichten

Die NVIDIA Hopper H200-GPU dominiert weiterhin die neuesten MLPerf 4.0-Ergebnisse: Bis zu dreifache Steigerung bei GenAI mit TensorRT-LLM

März 27, 2024

NVIDIA setzt mit seiner starken TensorRT-LLM-Suite weiterhin neue Maßstäbe bei der KI und bringt die H200-GPUs in letzter Zeit auf ein neues Niveau Ergebnisse von MLPerf v4.0.

Blackwell ist da, aber NVIDIA treibt die Entwicklung der Hopper H100- und H200-KI-GPUs mit neuen TensorRT-LLM-Optimierungen für bis zu dreifache Steigerung in MLPerf v4.0 weiter voran

Generative KI oder GenAI ist ein aufstrebender Markt und alle Hardwarehersteller versuchen, sich ihr Stück vom Kuchen zu ergattern. Aber trotz aller Bemühungen ist es NVIDIA, das bisher den Großteil des Anteils erobert hat, und der grüne Riese ist nicht mehr aufzuhalten, da er in den MLPerf v4.0-Inferenzergebnissen einige äußerst starke Benchmarks und Rekorde vorgelegt hat.

Die Feinabstimmung von TensorRT-LLM ist seit der Veröffentlichung der AI-Software-Suite im letzten Jahr im Gange. Mit den vorherigen Ergebnissen von MLPerf v3.1 haben wir eine deutliche Leistungssteigerung festgestellt, und jetzt steigert NVIDIA mit MLPerf v4.0 die Leistung von Hopper. Der Grund, warum Inferenz wichtig ist, liegt darin, dass sie 40 % des Rechenzentrumsumsatzes (der im letzten Jahr generiert wurde) ausmacht. Die Inferenz-Workloads reichen von LLMs (Large Language Models) über visuelle Inhalte bis hin zu Recommendern. Mit zunehmender Größe dieser Modelle nimmt die Komplexität zu und es besteht die Notwendigkeit, sowohl über leistungsstarke Hardware als auch Software zu verfügen.

Aus diesem Grund gibt es TensorRT-LLM als hochmodernen Inferenz-Compiler, der gemeinsam mit den NVIDIA-GPU-Architekturen entwickelt wurde. Zu den Funktionen von TensorRT-LLMs gehören:

In-Flight-Sequenz-Batching (optimiert die GPU-Auslastung)
KV-Cache-Verwaltung (höhere GPU-Speicherauslastung)
Generalisierte Aufmerksamkeit (XQA-Kernel)
Multi-GPU Multi-Node (Tensor & Pipeline Parallel)
FP8-Quantisierung (höhere Leistung und Anpassung an größere Modelle)

Mithilfe der neuesten TensorRT-LLM-Optimierungen ist es NVIDIA gelungen, eine zusätzliche 2,9-fache Leistung für seine Hopper-GPUs (wie die H100) in MLPerf v4.0 im Vergleich zu MLPerf v3.1 zu erzielen. In den heutigen Benchmark-Ergebnissen hat NVIDIA neue Leistungsrekorde in MLPerf Llama 2 (70 Milliarden) aufgestellt, mit bis zu 31.712 generierten Token pro Sekunde auf dem H200 (Vorschau) und 21.806 generierten Token pro Sekunde auf dem H100.

Es sollte erwähnt werden, dass die H200-GPU vor etwa einem Monat einem Benchmarking unterzogen wurde, weshalb sie im Vorschaustatus erwähnt wird, NVIDIA jedoch angegeben hat, dass sie diese GPUs jetzt an Kunden ausliefern.

Dank der höheren Speicherkonfiguration von 141 GB HBM3E und der schnelleren Bandbreite von bis zu 4,8 TB/s schafft die NVIDIA H200-GPU einen zusätzlichen Leistungszuwachs von 45 % in Llama 2 gegenüber den H100-GPUs. Unterdessen ist der H200 ein Gigant gegen Intels Gaudi 2, die einzige andere Konkurrenzlösung, die in den MLPerf v4.0-Benchmarks eingereicht wurde, während der H100 ebenfalls einen massiven 2,7-fachen Gewinn erzielt.

Darüber hinaus übertraf ein 8-GPU-NVIDIA-HGX-H200-GPU-System den Stable Diffusion XL-Benchmark und erreichte 13,8 Abfragen/Sekunde bzw. 13,7 Samples/Sekunde im Server- und Offline-Szenario.

Das ist aber noch nicht alles: Der H200 ist zwar Drop-in-kompatibel mit H100-Plattformen, es gibt aber auch eine benutzerdefinierte thermische Designvariante des H200 in Form der MGX-Plattform (GPU+CPU+DPU), die die TDP auf bis zu 1000 W steigern kann für bis zu 14 % höhere Leistung gegenüber der standardmäßigen luftgekühlten Variante. Die kundenspezifischen Lösungen sind von OEMs wie ASRock Rack, ASUS, Gigabyte, Pegatron, QCT und Supermicro erhältlich. Darüber hinaus wird erwartet, dass H200-KI-GPUs auch bei einer breiten Liste von NVIDIAs CSP- und OEM-Partnern erhältlich sein werden.

Die Hopper H200-GPUs von NVIDIA werden mit einer Basis-TDP von 700 W und kundenspezifischen Designs von bis zu 1000 W ausgeliefert. Die Blackwell-GPUs sind in den Konfigurationen 700 W (B100) und 1000/1200 W (B200) erhältlich. In Bezug auf die Blackwell-GPUs bestätigte NVIDIA, dass nur B100-GPUs direkt mit Hopper-Systemen kompatibel sein werden, während B200-GPUs ein völlig anderes Gehäuse- und Systemdesign erfordern. Die ersten Blackwell-Systeme werden später in diesem Jahr auf den Markt kommen, daher können wir in zukünftigen Einreichungen mit Ergebnissen in MLPerf rechnen.

DigiDeutsche

Die NVIDIA Hopper H200-GPU dominiert weiterhin die neuesten MLPerf 4.0-Ergebnisse: Bis zu dreifache Steigerung bei GenAI mit TensorRT-LLM

Blackwell ist da, aber NVIDIA treibt die Entwicklung der Hopper H100- und H200-KI-GPUs mit neuen TensorRT-LLM-Optimierungen für bis zu dreifache Steigerung in MLPerf v4.0 weiter voran