Nya Innovationer från NVIDIA inom Generativ AI Teknologi

NVIDIA har tagit ytterligare steg inom generativ AI-teknologi med betydande prestandaförbättringar enligt deras senaste MLPerf-mätningar. Företagets Hopper-arkitektur-GPUer, drivna av TensorRT-LLM, visade en imponerande 3x ökning i prestanda på GPT-J LLM jämfört med resultat från bara sex månader sedan.

Dessa prestandaförbättringar belyser NVIDIAs ständiga ansträngningar att befästa sin dominans inom området för generativ AI. Genom att dra nytta av TensorRT-LLM, som är speciellt utformat för att effektivisera inferenstasker för stora språkmodeller (LLM), har NVIDIA möjliggjort för företag i framkant av innovation att optimera sina modeller. Detta har ytterligare underlättats av NVIDIA NIM, en svit av inferens-mikrotjänster som inkluderar kraftfulla motorer som TensorRT-LLM. Det integrerade tillvägagångssättet som erbjuds av NVIDIA NIM förenklar implementeringen av NVIDIAs inferensplattform och ger företag en oöverträffad effektivitet och flexibilitet.

De senaste MLPerf-mätningarna visade också på styrkan hos NVIDIAs senaste H200 Tensor Core GPUer vid körning av TensorRT-LLM. Dessa minnesförbättrade GPUer, som debuterade på MLPerf-arenan, uppnådde exceptionell genomströmning och genererade upp till 31 000 token per sekund på Llama 2 70B-mätningen. Detta belyser de imponerande generativa AI-förmågorna hos NVIDIAs senaste maskinvara.

Utöver prestandavinster har NVIDIA också gjort betydande framsteg inom termisk hantering med sina H200 GPUer. Anpassade lösningar inom termisk hantering har bidragit till prestandavinster på upp till 14%. Detta exemplifieras av de kreativa implementeringarna av NVIDIAs MGX-designer av systembyggare, vilket ytterligare förbättrar prestandamöjligheterna hos Hopper GPUer.

Medan NVIDIA fortsätter att innovera har de redan börjat leverera H200 GPUer till nästan 20 framstående systembyggare och molntjänsteleverantörer. Dessa GPUer, med sin imponerande minnesbandbredd på nästan 5 TB/sekund, erbjuder exceptionell prestanda, särskilt vid minnesintensiva MLPerf-mätningar såsom rekommendationssystem.

NVIDIAs engagemang för att driva gränserna för AI-teknologi är tydligt i deras användning av tekniker som strukturerad sparsity. Genom att använda strukturerad sparsity, en metod som syftar till att minska beräkningar, uppnådde NVIDIA-ingenjörer hastighetsförbättringar på upp till 33% vid inferens med Llama 2. Detta visar företagets dedikation till att leverera effektiva och högpresterande AI-lösningar.

Blickande mot framtiden avslöjade NVIDIAs grundare och VD, Jensen Huang, under den senaste GTC-konferensen att de kommande NVIDIA Blackwell-arkitektur-GPUerna kommer att leverera ännu högre prestandanivåer. Dessa GPUer kommer att vara specifikt utformade för att möta de eskalerande kraven hos stora språkmodeller för att möjliggöra träning och inferens av AI-modeller med flera biljoner parametrar.

FAQ

Q: Vad är TensorRT-LLM?
A: TensorRT-LLM är ett specialverktyg utvecklat av NVIDIA för att effektivisera inferenstasker för stora språkmodeller (LLM). Det förbättrar prestanda och effektivitet i generativa AI-applikationer.

Q: Vad är MLPerf-mätningarna?
A: MLPerf-mätningarna är en uppsättning branschstandard-mätningar som används för att utvärdera prestandan hos maskininlärningssystem och modeller över olika domäner och uppgifter.

Q: Vad är strukturerad sparsity?
A: Strukturerad sparsity är en teknik som används för att minska beräkningar i AI-modeller genom att identifiera och använda mönster av sparsamhet i data. Det hjälper till att förbättra effektiviteten och hastigheten för inferenstasker.

Q: Vad är betydelsen av H200 GPUerna?
A: H200 GPUerna från NVIDIA erbjuder imponerande minnesbandbredd och prestanda, vilket gör dem väl lämpade för minnesintensiva uppgifter inom generativ AI och maskininlärning.

Källor

– NVIDIA Officiell Webbplats: nvidia.com

För mer information om NVIDIAs framsteg inom generativ AI och dess MLPerf-mätningar, besök [NVIDIA Officiell Webbplats](https://www.nvidia.com).

The source of the article is from the blog regiozottegem.be

Privacy policy
Contact