NVIDIA setzt neue Maßstäbe in der generativen KI mit Leistungssteigerungen

NVIDIA hat kürzlich beeindruckende Leistungssteigerungen in den MLPerf-Benchmarks verkündet, die seine führende Position im Bereich der generativen KI unterstreichen. Die Hopper-Architektur-GPUs des Unternehmens, angetrieben von TensorRT-LLM, wiesen im Vergleich zu Ergebnissen vor nur sechs Monaten eine bemerkenswerte Leistungssteigerung um das 3-fache beim GPT-J LLM auf.

Diese Verbesserungen verdeutlichen die kontinuierlichen Bemühungen von NVIDIA, seine Dominanz im Bereich der generativen KI zu festigen. Durch die Nutzung von TensorRT-LLM, das speziell für die Optimierung von Inferenzaufgaben großer Sprachmodelle (LLMs) entwickelt wurde, ermöglicht NVIDIA Unternehmen, ihre Modelle zu optimieren und an der Spitze der Innovation zu bleiben. Dies wird weiter durch NVIDIA NIM erleichtert, eine Suite von Inferenz-Mikroservices, die leistungsstarke Engines wie TensorRT-LLM umfassen. Der integrierte Ansatz, den NVIDIA NIM bietet, vereinfacht die Bereitstellung der Inferenzplattform von NVIDIA und bietet Unternehmen eine unerreichte Effizienz und Flexibilität.

Die jüngsten MLPerf-Benchmarks zeigten auch die Leistungsfähigkeit der neuesten H200 Tensor Core-GPUs von NVIDIA bei der Ausführung von TensorRT-LLM. Diese GPUs mit erweitertem Speicher, die ihr Debüt in der MLPerf-Arena feierten, erreichten eine außergewöhnliche Durchsatzrate und erzeugten bis zu 31.000 Tokens pro Sekunde im Llama 2 70B-Benchmark. Dies unterstreicht die beeindruckenden Fähigkeiten der generativen KI von NVIDIAs neuester Hardware.

Neben Leistungssteigerungen hat NVIDIA auch bedeutende Fortschritte bei der thermischen Verwaltung mit seinen H200-GPUs gemacht. Kundenspezifische Lösungen in der thermischen Verwaltung haben zu Leistungssteigerungen von bis zu 14% beigetragen. Dies zeigt sich in den kreativen Implementierungen von NVIDIA MGX-Designs durch Systemhersteller, die die Leistungsfähigkeit der Hopper-GPUs weiter verbessern.

Während NVIDIA weiterhin innovativ ist, hat das Unternehmen bereits begonnen, die H200-GPUs an fast 20 prominente Systemhersteller und Cloud-Service-Anbieter zu liefern. Diese GPUs, mit einer beeindruckenden Speicherbandbreite von fast 5 TB/Sekunde, bieten herausragende Leistung, insbesondere bei speicherintensiven MLPerf-Bewertungen wie Empfehlungssystemen.

Die Verpflichtung von NVIDIA, die Grenzen der KI-Technologie weiter auszuloten, zeigt sich in seiner Annahme von Techniken wie strukturierter Sparsamkeit. Durch die Verwendung von strukturierter Sparsamkeit, einem Ansatz zur Reduzierung von Berechnungen, haben NVIDIA-Ingenieure Geschwindigkeitssteigerungen von bis zu 33% bei der Inferenz mit Llama 2 erreicht. Dies verdeutlicht die Hingabe des Unternehmens, effiziente und leistungsstarke KI-Lösungen zu liefern.

Ein Blick in die Zukunft zeigt, dass der Gründer und CEO von NVIDIA, Jensen Huang, während der kürzlich stattgefundenen GTC-Konferenz enthüllte, dass die kommenden NVIDIA Blackwell-Architektur-GPUs noch höhere Leistungsniveaus bieten werden. Diese GPUs werden speziell darauf ausgelegt sein, den steigenden Anforderungen großer Sprachmodelle gerecht zu werden und das Training und die Inferenz von mehrtrillionenparametrigen KI-Modellen zu ermöglichen.

**FAQ:**

**Frage:** Was ist TensorRT-LLM?
**Antwort:** TensorRT-LLM ist ein spezialisiertes Tool, das von NVIDIA entwickelt wurde, um Inferenzaufgaben für große Sprachmodelle (LLMs) zu optimieren. Es verbessert die Leistung und Effizienz in generativen KI-Anwendungen.

**Frage:** Was sind die MLPerf-Benchmarks?
**Antwort:** MLPerf-Benchmarks sind eine Reihe von branchenüblichen Benchmarks, die verwendet werden, um die Leistung von Maschinenlernsystemen und -modellen in verschiedenen Bereichen und Aufgaben zu bewerten.

**Frage:** Was ist strukturierte Sparsamkeit?
**Antwort:** Strukturierte Sparsamkeit ist eine Technik, die dazu dient, Berechnungen in KI-Modellen durch Identifizierung und Nutzung von Sparsamkeitsmustern in den Daten zu reduzieren. Sie hilft dabei, die Effizienz und Geschwindigkeit von Inferenzaufgaben zu verbessern.

**Frage:** Was ist die Bedeutung der H200-GPUs?
**Antwort:** Die H200-GPUs von NVIDIA bieten eine beeindruckende Speicherbandbreite und Leistung und sind damit für speicherintensive Aufgaben in der generativen KI und im maschinellen Lernen bestens geeignet.

**Quelle:**
– NVIDIA Offizielle Webseite: [NVIDIA](https://www.nvidia.com)

The source of the article is from the blog exofeed.nl