Oversættelse til dansk

Google og Meta afslører banbrydende AI-modeller til forbedret forståelse og visuel læring

Google og Meta har for nylig introduceret avancerede AI-modeller, som står til at revolutionere området for kunstig intelligens. Disse modeller bringer nye perspektiver og spændende muligheder for at udnytte AI i forskellige applikationer.

Googles seneste model, Gemini 1.5, fokuserer på forståelse af langt indhold på tværs af forskellige modaliteter. Bygget på Transformer og Mixture of Experts (MoE) -arkitekturen overgår denne opdaterede version sin forgænger, Gemini 1.0 Ultra, når det kommer til ydeevne. Gemini 1.5 Pro, der i øjeblikket er tilgængelig til tidlig testning, leveres med et imponerende 128.000 token kontekstvindue, hvilket gør det muligt at behandle og levere mere omfattende og relevante output. Desuden tilbydes en særlig version med et kontekstvindue på op til 1 million tokens til udvalgte udviklere og virksomhedskunder i en privat forhåndsvisning. Denne version demonstrerer modellens bemærkelsesværdige evne til at håndtere store mængder indhold, herunder videoer, lyd, kodebaser og skreven tekst.

På den anden side har Meta introduceret modellen Video Joint Embedding Predictive Architecture (V-JEPA). V-JEPA skiller sig ud fra traditionelle generative AI-modeller, da den fokuserer på at undervise maskinlæringssystemer gennem visuelt medie. Ved at se videoer lærer den at forstå den fysiske verden og kan forudsige efterfølgende rammer. Meta har anvendt en innovativ masketeknologi til at træne modellen, hvor rammer enten helt fjernes eller delvist skjules for at forbedre den forudsigende analyse. Mens den nuværende version af V-JEPA udelukkende bruger visuelle data, har Meta planer om at inkorporere lyd i fremtidige iterationer, hvilket yderligere styrker dens evner.

Disse banbrydende AI-udviklinger tilbyder nye måder at udnytte kunstig intelligens på. Gemini 1.5 tillader dybdegående og omfattende bearbejdning af information og bringer forståelse af langt indhold i fokus. På den anden side viser Meta’s V-JEPA-model potentialet for at undervise maskinlæringssystemer gennem visuelt medie og baner vejen for forbedret videoanalyse og forudsigelse.

Introduktionen af disse avancerede AI-modeller markerer et betydeligt skridt fremad på området og eksemplificerer den løbende innovation inden for branchen. Disse modeller rummer enormt potentiale for at tackle komplekse opgaver, fremme maskinlæring og transformere forskellige brancher med deres unikke evner. Med deres forbedrede forståelse og visuelle læringsevner er AI sat til at opnå nye horisonter og forme fremtiden.

The source of the article is from the blog enp.gr