Connect with us

Nachrichten

Intel Gaudi 3 AI Accelerator offiziell: 5 nm, 128 GB HBM2e, bis zu 900 W, 50 % schneller als NVIDIA H100 und 40 % effizienter

Intel Gaudi 3 AI Accelerator offiziell: 5 nm, 128 GB HBM2e, bis zu 900 W, 50 % schneller als NVIDIA H100 und 40 % effizienter

Intel hat endlich seinen KI-Beschleuniger der nächsten Generation vorgestellt. der Gaudi 3basiert auf einem 5-nm-Prozessknoten und konkurriert direkt mit den H100-GPUs von NVIDIA.

Intel Gaudi 3 KI-Beschleuniger übernehmen den Kampf gegen NVIDIA, bieten im Durchschnitt 50 % schnellere KI-Leistung und sind gleichzeitig 40 % effizient

Intels Gaudi-KI-Beschleuniger waren ein großer Konkurrent und die einzige Alternative zu NVIDIAs GPUs im KI-Segment. Wir haben kürzlich einige hitzige Benchmark-Vergleiche zwischen den Gaudi 2- und den NVIDIA A100/H100-GPUs gesehen, wobei Intel seinen starken Leistungs-/$-Vorsprung unter Beweis stellte, während NVIDIA in Bezug auf die Leistung insgesamt führend im KI-Bereich blieb. Jetzt beginnt das dritte Kapitel von Intels KI-Reise mit dem Gaudi 3-Beschleuniger, das ausführlich beschrieben wurde.

Intel stellte den Intel Gaudi 3 AI-Beschleuniger am 9. April 2024 auf der Intel Vision-Veranstaltung in Phoenix, Arizona, vor. Es soll globalen Unternehmen die Wahl für generative KI bieten und baut auf der Leistung und Skalierbarkeit seines Vorgängers Gaudi 2 auf. (Quelle: Intel Corporation)

Das Unternehmen kündigte den Beschleuniger Gaudi 3 an, der über die neueste Tensor-Core-Architektur (5. Generation) mit insgesamt 64 Tensor-Kernen in zwei Rechenchips verfügt. Die GPU selbst verfügt über einen 96-MB-Cache-Pool, der von beiden Chips gemeinsam genutzt wird, und es gibt acht HBM-Standorte, die jeweils über 8-Hi-Stacks mit 16-GB-HBM2e-DRAM für bis zu 128 GB Kapazitäten und bis zu 3,7 TB/s Bandbreite verfügen. Der gesamte Chip wird mithilfe der TSMC 5-nm-Prozessknotentechnologie hergestellt und es gibt insgesamt 24 200-GbE-Verbindungsverbindungen.

Was das Produktangebot angeht, werden die Intel Gaudi 3 AI-Beschleuniger in beiden Varianten erhältlich sein Mezzanine-OAM-Formfaktor (HL-325L). mit bis zu 900 W Standard- und über 900 W flüssigkeitsgekühlten Varianten und PCIe AIC mit einem Design voller Höhe, doppelter Breite und 10,5 Zoll Länge. Die Gaudi 3 HL-338 PCIe Karten werden mit passiver Kühlung geliefert und unterstützen bis zu 600 W TDP mit den gleichen Spezifikationen wie die OAM-Variante.

Das Unternehmen kündigte außerdem sein eigenes HLB-325-Baseboard an Integriertes Subsystem HLFB-325L der bis zu 8 Gaudi 3-Beschleuniger transportieren kann. Dieses System hat eine kombinierte TDP von 7,6 Kilowatt und misst 19 Zoll.

Der Nachfolger von Gaudi 3 wird in Form von Falcon Shores erscheinen, das für 2025 erwartet wird und sowohl Gaudi- als auch Xe-IPs in einer einzigen GPU-Programmierschnittstelle kombinieren wird, die auf der Intel oneAPI-Spezifikation basiert.

Pressemitteilung: Auf der Intel Vision stellt Intel den Intel Gaudi 3 AI Accelerator vor, der im Vergleich zum Vorgänger 4-fache KI-Rechenleistung für BF16, 1,5-fache Steigerung der Speicherbandbreite und 2-fache Netzwerkbandbreite für eine massive Systemskalierung bietet – ein deutlicher Leistungs- und Produktivitätssprung für KI-Training und Inferenz auf beliebte große Sprachmodelle (LLMs) und multimodale Modelle.

Der Intel Gaudi 3-Beschleuniger wird diese Anforderungen erfüllen und Vielseitigkeit durch offene Community-basierte Software und offenes Industriestandard-Ethernet bieten und Unternehmen dabei helfen, ihre KI-Systeme und -Anwendungen flexibel zu skalieren.

Wie eine benutzerdefinierte Architektur GenAI-Leistung und -Effizienz liefert: Der Intel Gaudi 3-Beschleuniger wurde für effiziente KI-Berechnungen im großen Maßstab entwickelt, wird in einem 5-Nanometer-Verfahren (nm) hergestellt und bietet erhebliche Fortschritte gegenüber seinem Vorgänger. Es ist so konzipiert, dass es die parallele Aktivierung aller Engines ermöglicht – mit der Matrix Multiplication Engine (MME), den Tensor-Prozessorkernen (TPCs) und den Netzwerkschnittstellenkarten (NICs) – und so die erforderliche Beschleunigung für schnelle, effiziente Deep-Learning-Berechnungen und Skalierung ermöglicht. Zu den Hauptmerkmalen gehören:

  • KI-dedizierte Compute Engine: Der Intel Gaudi 3-Beschleuniger wurde speziell für leistungsstarke und hocheffiziente GenAI-Rechner entwickelt. Jeder Beschleuniger verfügt auf einzigartige Weise über eine heterogene Rechenmaschine, die aus 64 KI-kundenspezifischen und programmierbaren TPCs und acht MMEs besteht. Jedes Intel Gaudi 3 MME ist in der Lage, beeindruckende 64.000 parallele Operationen durchzuführen, was ein hohes Maß an Recheneffizienz ermöglicht und es ihnen ermöglicht, komplexe Matrixoperationen zu bewältigen, eine Art von Berechnung, die für Deep-Learning-Algorithmen von grundlegender Bedeutung ist. Dieses einzigartige Design beschleunigt die Geschwindigkeit und Effizienz paralleler KI-Operationen und unterstützt mehrere Datentypen, einschließlich FP8 und BF16.
  • Speicher-Boost für LLM-Kapazitätsanforderungen: 128 Gigabyte (GB) HBMe2-Speicherkapazität, 3,7 Terabyte (TB) Speicherbandbreite und 96 Megabyte (MB) integrierter statischer Direktzugriffsspeicher (SRAM) bieten ausreichend Speicher für die Verarbeitung großer GenAI-Datensätze auf weniger Intel Gaudi 3s. Besonders nützlich bei der Bereitstellung großer Sprach- und multimodaler Modelle, was zu einer höheren Arbeitslastleistung und Kosteneffizienz des Rechenzentrums führt.
  • Effiziente Systemskalierung für Enterprise GenAI: In jeden Intel Gaudi 3-Beschleuniger sind 24 200-Gigabit-Ethernet-Ports (Gb) integriert, die eine flexible und offene Standardnetzwerke ermöglichen. Sie ermöglichen eine effiziente Skalierung zur Unterstützung großer Rechencluster und beseitigen die Anbieterbindung durch proprietäre Netzwerkstrukturen. Der Intel Gaudi 3-Beschleuniger ist für die effiziente Skalierung und Skalierung von einem einzelnen Knoten auf Tausende ausgelegt, um den umfangreichen Anforderungen von GenAI-Modellen gerecht zu werden.
  • Offene Branchensoftware für Entwicklerproduktivität: Die Intel Gaudi-Software integriert das PyTorch-Framework und bietet optimierte Hugging Face-Community-basierte Modelle – das heute am häufigsten verwendete KI-Framework für GenAI-Entwickler. Dadurch können GenAI-Entwickler auf einem hohen Abstraktionsniveau arbeiten, um die Benutzerfreundlichkeit und Produktivität zu erhöhen und die Modellportierung über Hardwaretypen hinweg zu vereinfachen.
  • Gaudi 3 PCIe: Neu in der Produktlinie ist die Gaudi 3 Peripheral Component Interconnect Express (PCIe)-Zusatzkarte. Dieser neue Formfaktor ist auf hohe Effizienz bei geringerem Stromverbrauch zugeschnitten und eignet sich ideal für Arbeitslasten wie Feinabstimmung, Inferenz und Retrieval-Augmented Generation (RAG). Es ist mit einem Full-Height-Formfaktor von 600 Watt, einer Speicherkapazität von 128 GB und einer Bandbreite von 3,7 TB pro Sekunde ausgestattet.
Intel stellte den KI-Beschleuniger Gaudi 3 am 9. April 2024 auf der Intel Vision-Veranstaltung in Phoenix, Arizona, vor. Der Beschleuniger liefert 4-fache KI-Rechenleistung für BF16 und eine 1,5-fache Steigerung der Speicherbandbreite im Vergleich zum Vorgänger. (Quelle: Intel Corporation)

Der Intel Gaudi 3-Beschleuniger wird erhebliche Leistungsverbesserungen für Trainings- und Inferenzaufgaben auf führenden GenAI-Modellen liefern. Konkret soll der Intel Gaudi 3-Beschleuniger im Vergleich zu NVIDIA H100 im Durchschnitt liefern:

  • 50 % schnellere Trainingszeit über Llama2 7B- und 13B-Parameter und GPT-3 175B-Parametermodelle.
  • 50 % schnellerer Inferenzdurchsatz Und 40 % höhere Inferenzleistungseffizienz über die Parameter Llama 7B und 70B sowie über die Parametermodelle Falcon 180B. Ein noch größerer Vorteil der Inferenzleistung bei längeren Eingabe- und Ausgabesequenzen.
  • 30 % schnellere Inferenz auf Llama 7B- und 70B-Parametern und Falcon 180B-Parametermodellen im Vergleich zu NVIDIA H200.

Über Marktakzeptanz und Verfügbarkeit: Der Intel Gaudi 3-Beschleuniger wird im zweiten Quartal 2024 für Originalgerätehersteller (OEMs) in den branchenüblichen Konfigurationen Universal Baseboard und Open Accelerator Module (OAM) verfügbar sein. Zu den namhaften OEM-Anwendern, die Gaudi 3 auf den Markt bringen werden, gehören Dell Technologies, HPE, Lenovo und Supermicro. Die allgemeine Verfügbarkeit der Intel Gaudi 3-Beschleuniger wird für das dritte Quartal 2024 erwartet, und die Intel Gaudi 3 PCIe-Zusatzkarte wird voraussichtlich im letzten Quartal 2024 verfügbar sein.

Intel stellte den Intel Gaudi 3 AI-Beschleuniger am 9. April 2024 auf der Intel Vision-Veranstaltung in Phoenix, Arizona, vor. Der KI-Beschleuniger ist darauf ausgelegt, proprietäre Mauern zu durchbrechen, um dem Markt für generative KI für Unternehmen mehr Wahlmöglichkeiten zu bieten. (Quelle: Intel Corporation)

Der Intel Gaudi 3-Beschleuniger wird auch mehrere kostengünstige Cloud-LLM-Infrastrukturen für Training und Inferenz unterstützen und Unternehmen, die jetzt NAVER einsetzen, Preis-Leistungs-Vorteile und Auswahlmöglichkeiten bieten.

Teilen Sie diese Geschichte

Facebook

Twitter