NVIDIA Styrker Sin Position Inden for Generativ AI Med Forbedret Ydeevne

NVIDIA, en førende inden for generativ AI-teknologier, har offentliggjort betydelige ydelsesforbedringer i sine MLPerf benchmarks. Virksomhedens Hopper-arkitektur GPU’er, drevet af TensorRT-LLM, viste en bemærkelsesværdig 3x stigning i ydelse på GPT-J LLM sammenlignet med resultater fra bare seks måneder siden.

Disse ydelsesforbedringer fremhæver NVIDIAs kontinuerlige bestræbelser på at styrke sin position inden for generativ AI-feltet. Ved at udnytte TensorRT-LLM, som er specielt designet til at optimere inferencer opgaver for store sprogmodeller (LLM), har NVIDIA gjort det muligt for virksomheder, der er førende inden for innovation, at optimere deres modeller. Dette er yderligere facilitet af NVIDIA NIM, en pakke af inferencemikrotjenester, der inkluderer kraftfulde motorer som TensorRT-LLM. Den integrerede tilgang, som NVIDIA NIM tilbyder, forenkler implementeringen af NVIDIAs inferensplatform og giver virksomheder en uhørt effektivitet og fleksibilitet.

De seneste MLPerf benchmarks viste også styrken af NVIDIAs nyeste H200 Tensor Core GPU’er under kørsel med TensorRT-LLM. Disse hukommelsesforbedrede GPU’er, der gør deres debut i MLPerf-arenaen, opnåede enestående gennemstrømning, idet de genererede op til 31.000 tokens pr. sekund på Llama 2 70B benchmark. Dette understreger NVIDIAs nyeste hardwares imponerende generative AI-evner.

Foruden ydelsesforøgelser har NVIDIA også gjort betydelige fremskridt inden for termisk styring med sine H200 GPU’er. Skræddersyede løsninger inden for termisk styring har bidraget til ydelsesforøgelser på op til 14%. Dette illustreres af de kreative implementeringer af NVIDIA MGX-designs af systembyggere, der yderligere forbedrer Hopper-GPU’ernes ydeevne.

Mens NVIDIA fortsætter med at innovere, har de allerede påbegyndt leveringen af H200 GPU’er til næsten 20 prominente systembyggere og cloud-tjenesteudbydere. Disse GPU’er, med deres imponerende hukommelsesbåndbredde på næsten 5 TB/sekund, tilbyder enestående ydelse, især i hukommelsesintensive MLPerf-evalueringer såsom anbefalingssystemer.

NVIDIAs forpligtelse til at presse grænserne for AI-teknologi er tydelig i deres anvendelse af teknikker som struktureret sparsomhed. Ved at bruge struktureret sparsomhed, en tilgang der sigter mod at reducere beregninger, opnåede NVIDIA-ingeniører hastighedsforbedringer på op til 33% i inferens med Llama 2. Dette viser virksomhedens dedikation til at levere effektive og højtydende AI-løsninger.

I fremtiden afslørede NVIDIAs grundlægger og administrerende direktør, Jensen Huang, under den seneste GTC-konference, at de kommende NVIDIA Blackwell-arkitektur-GPU’er vil levere endnu højere ydelsesniveauer. Disse GPU’er vil være specielt designet til at imødekomme de stigende krav fra store sprogmodeller og muliggøre træning og inferens af multi-billion-parameter AI-modeller.

FAQ:

Spørgsmål: Hvad er TensorRT-LLM?
Svar: TensorRT-LLM er et specialværktøj udviklet af NVIDIA til at optimere inferensopgaver for store sprogmodeller (LLMs). Det forbedrer ydeevnen og effektiviteten i generative AI-applikationer.

Spørgsmål: Hvad er MLPerf benchmarks?
Svar: MLPerf benchmarks er en række branchestandard benchmarks, der bruges til at evaluere ydeevnen af maskinlæringsystemer og modeller på tværs af forskellige domæner og opgaver.

Spørgsmål: Hvad er struktureret sparsomhed?
Svar: Struktureret sparsomhed er en teknik til at reducere beregninger i AI-modeller ved at identificere og udnytte mønstre af sparsomhed i data. Det hjælper med at forbedre effektiviteten og hastigheden af inferensopgaver.

Spørgsmål: Hvad er betydningen af H200 GPU’er?
Svar: H200 GPU’er fra NVIDIA tilbyder imponerende hukommelsesbåndbredde og ydelse, hvilket gør dem velegnede til hukommelsesintensive opgaver inden for generativ AI og maskinlæring.

Kilder:
– NVIDIA Officielle Hjemmeside: [nvidia.com](https://www.nvidia.com)

The source of the article is from the blog revistatenerife.com