Nachrichten

Intel zeigt seine Verpackungskompetenz mit einer 7-nm-Ponte Vecchio Xe-HPC-GPU, über 100 Milliarden Transistoren und 47 XPU-Rechenkacheln


Gestern, während des von Intel veröffentlichten Webcasts, hat CEO Pat Gelsinger, enthüllt Neue Details der 7-nm-Xe-HPC-basierten Ponte Vecchio-GPU, die der größte und am meisten entwickelte Chip sein soll. Die Ponte Vecchio-GPU wird mehrere hervorgehobene Schlüsseltechnologien verwenden, die 47 verschiedene Rechenkacheln basierend auf verschiedenen Prozessknoten und Architekturen unterstützen.

Intel 7nm Xe-HPC-betriebene Ponte Vecchio-GPU mit weiteren Details – Über 100 Milliarden Transistoren, 47 XPU-Kacheln und Mix-Match verschiedener Prozessknoten

Die Intel Ponte Vecchio GPU basiert in erster Linie auf der Xe-HPC-Grafikarchitektur, dem Flaggschiff unter Nutzung des 7-nm-EUV-Prozessknotens von Intel. Abgesehen davon verfügt der Chip über eine Menge anderer Rechenkacheln, die auf verschiedenen Prozessknoten basieren und alle zu einer einzigen exascale Grafikverarbeitungseinheit namens Ponte Vecchio verschmelzen. Wir haben bereits einen Überblick über das Angebot der gesamten Ponte Vecchio-GPU gegeben, und Sie können hier einen ausführlicheren Beitrag dazu lesen.

Intel (INTC) stellt seine IDM 2.0-Strategie vor und bietet einen neuen Finanzausblick für das Geschäftsjahr 2021, der den Aktienkurs anhebt, obwohl der Umsatz des letzten Jahres nicht erreicht wurde

Während die GPU hauptsächlich den 7-nm-EUV-Prozessknoten von Intel verwendet, gibt es für den Anfang andere Kacheln, die für die Funktion der Ponte Vecchio-GPU unerlässlich sind und die auf dem 7-nm-Prozessknoten von TSMC hergestellt werden. Wir können noch nicht bestätigen, ob Intel den Standard-7-nm- oder 7-nm + EUV-Prozessknoten von TSMC nutzen wird, aber es ist wahrscheinlich, dass Intel den Standardweg einschlagen könnte, da die Xe Link-E / A-Kachel, die den TSMC-Prozess verwendet, die Aufgabe während der Basis ausführen kann zum Nicht-EUV-7-nm-Prozess.

Raja neckte, dass hier 7 fortschrittliche Technologien im Spiel sind, und nach unserer Berechnung wären dies:

  • Intel 7nm
  • TSMC 7nm
  • Foveros 3D-Verpackung
  • EMIB
  • 10nm Enhanced Super Fin
  • Rambo-Cache
  • HBM2

Der Ponte Vecchio-Chip besteht aus zwei separaten GPU-Chips, die jeweils aus sechs Xe-HPC-Compute-Einheiten bestehen. Ein Paar dieser Recheneinheiten ist direkt an einen Rambo-Cache angeschlossen, der den Intel 10nm Enhanced SuperFin-Prozessknoten verwendet. Jeder GPU-Block ist auch an vier HBM2-Stapel angeschlossen, die entweder 4-hi oder 8-hi sein können. Insgesamt gibt es acht HBM2-Stacks, die mehrere GB Speicherkapazität mit viel Bandbreite bieten. Es gibt auch 8 passive Chipversteifungen auf jeder GPU. Die Haupt-GPU verwendet die Foveros 3D-Verpackung, um die GPU-Recheneinheiten mit dem Cache zu verbinden, während die EMIB die E / A-Kachel HBM2 und Xe Link mit der Haupt-GPU verbindet.

Im Allgemeinen bietet Forveros Inter-GPU-Konnektivität (GPU + Cache) innerhalb derselben Kacheln, während EMIB Konnektivität für Off-Die-Kacheln (HBM2 mit GPU) bietet. Dies alles ergibt die Ponte Vecchio Xe-HPC-GPU, die aus über 100 Milliarden Transistoren besteht. Ein interessantes Lego-Blockdiagramm wurde von Raja Koduri veröffentlicht, das die verschiedenen Blöcke / Kacheln der Ponte Vecchio-GPU zeigt. Wir haben jedoch auch das oben veröffentlichte detailliertere Blockdiagramm, das Ihnen eine genaue Darstellung der einzelnen Kacheln bietet.

Intels Xeon W-1300 Rocket Lake ‘Mainstream Workstation’-Desktop-CPUs lecken aus

Intel Xe HPC ‘Ponte Vecchio’ GPU – Was wir bisher wissen

Abgerundet werden die Details: Die Intel Xe HPC-GPUs ‘Ponte Vecchio’ werden das führende 7-nm-Produkt sein, das 2021 auf den Markt kommt. Sie werden ein MCM-Verpackungsdesign aufweisen, das auf der Foveros 3D-Verpackungstechnologie basiert. Jede MCM-GPU wird über EMIB mit HBM-DRAM-Paketen mit hoher Dichte verbunden und verfügt zusätzlich über einen schnelleren Rambo-Cache in ihrer Nähe, der über Foveros verbunden wird. Während Slingshot eine Verbindung zwischen den Knoten herstellt, wird Intels Xe Link die 6 Xe HPC-GPUs miteinander verbinden.

Intel hat zuvor detailliert beschrieben, dass seine Xe HPC-GPUs über Tausende von EUs verfügen werden. Bisher haben wir nur Xe LP mit 96 EUs gesehen, was insgesamt 768 Kernen entspricht. Derzeit verfügt Intel über 8 EUs pro Subslice. Eine Untergruppe in einer Gen 12-GPU ähnelt der NVIDIA SM-Einheit in der GPC oder einer AMD-CU in der Shader Engine. Intel verfügt derzeit über 8 EUs pro Subslice auf seinen Gen 9.5- und Gen 11-GPUs. Wenn also dieselbe Hierarchie beibehalten wird, können wir eine erhebliche Anzahl von Super-Slices sehen, die aus vielen Subslices bestehen. Jede EU der Gen 11 und Gen 9.5 enthält außerdem 8 ALUs, die auch für Gen 12 unverändert bleiben.

Abgerundet wird das Ganze durch einen 1000 EU-Chip für 8000 Kerne, aber es wurde bestätigt, dass 1000 nur der Basiswert ist und die tatsächliche Kernanzahl viel größer ist. Eine 4-Kacheln-Xe-HP-GPU mit 2048 EUs oder 16.384 Kernen wurde bereits detailliert beschrieben, sodass HPC-Teile wahrscheinlich viel größer sein werden. Hier sind die tatsächlichen EU-Zahlen der verschiedenen MCM-basierten Xe HP-GPUs von Intel sowie die geschätzten Kernzahlen und TFLOPs:

  • Intel Xe HP (12.5) 1-Tile-GPU: 512 EU [Est: 4096 Cores, 12.2 TFLOPs assuming 1.5GHz, 150W]
  • ichntel Xe HP (12.5) 2-Tile-GPU: 1024 EUs [Est: 8192 Cores, 20.48 assuming 1.25 GHz, TFLOPs, 300W]
  • Intel Xe HP (12.5) 4-Tile-GPU: 2048 EUs [Est: 16,384 Cores, 36 TFLOPs assuming 1.1 GHz, 400W/500W]

Intel Xe-Klasse-GPUs würden eine variable Vektorbreite aufweisen, wie unten erwähnt:

  • SIMT (GPU-Stil)
  • SIMD (CPU-Stil)
  • SIMT + SIMD (Maximale Leistung)

Raja sprach speziell über die GPUs der Xe HPC-Klasse, da es bei der Entwicklerkonferenz ausschließlich darum geht. Die Xe-HPC-GPUs von Intel können auf 1000 EUs skaliert werden, und jede Ausführungseinheit wurde aktualisiert, um eine 40-mal bessere Gleitkomma-Rechenleistung mit doppelter Genauigkeit zu liefern.

Die EUs würden mit einer neuen skalierbaren Speicherstruktur, die als XEMF (Kurzform von XE Memory Fabric) bekannt ist, mit mehreren Speicherkanälen mit hoher Bandbreite verbunden. Die Xe HPC-Architektur würde auch einen sehr großen einheitlichen Cache enthalten, der als Rambo-Cache bekannt ist und mehrere GPUs miteinander verbindet. Dieser Rambo-Cache bietet eine nachhaltige Spitzenleistung für FP64-Berechnungen bei Workloads mit doppelter Genauigkeit, indem er eine enorme Speicherbandbreite bereitstellt.

Im Hinblick auf Prozessoptimierungen sind die folgenden wenigen wichtigen Verbesserungen aufgeführt, die Intel für seinen 7-nm-Prozessknoten über 10 nm angekündigt hat:

  • 2x Dichteskalierung vs 10nm
  • Geplante knoteninterne Optimierungen
  • 4x Reduzierung der Designregeln
  • EUV
  • Foveros & EMIB-Verpackungen der nächsten Generation

Die Xe-HPC-GPUs verwenden die Forveros-Technologie, um eine Verbindung mit dem Rambo-Cache herzustellen, der von mehreren anderen Xe-HPC-GPUs auf demselben Interposer gemeinsam genutzt wird. Genau wie ihre Xeon-Brüder würden Intels Xe-HPC-GPUs mit ECC-Speicher- / Cache-Korrektur und RAS der Xeon-Klasse ausgestattet sein. Intels Ponte Vecchio-GPUs werden zuerst zum Aurora-Supercomputer aufbrechen. Die Auslieferung beginnt noch in diesem Jahr. Die GPU wird gegen die Grafikarchitekturen Ada Lovelace von NVIDIA und CDNA 2 von AMD im HPC-Segment antreten, die ebenfalls einen Multi-Die-Design-Ansatz verwenden werden.

Ähnliche Artikel

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Schaltfläche "Zurück zum Anfang"