Revolucionarna umetna inteligenca oživlja slike le s fotografijo in zvočnim posnetkom.

Tehnološko čudo je izšlo iz briljantnih umov pri podjetju Microsoft, velikanu na področju umetne inteligence, ki je prej sodeloval z OpenAI. S hitro rastjo panoge je Microsoft sedaj predstavil izjemen inovativen izdelek, ki se izstopa celo med poplavo napovedi za generativno umetno inteligenco.

Z oživljanjem umetnosti zgolj s statično sliko in kratkim zvočnim vzorcem so inženirji v Redmondu razvili metodo za sestavljanje prepričljivo realističnih govorljivih likov, ki vdahnejo življenje tudi v priznane slike. Predstavljajte si, kako Mona Lisa govori, kot bi skočila iz strani knjige o Harryju Potterju, nekdaj nepredstavljivo dejanje, ki je omogočeno s pomočjo napredne umetne inteligence podjetja Microsoft.

Ta napredek, znan kot VASA-1, sintetizira podano sliko in vzorec glasu, da oživi obraz s precej naravnimi izrazi obraza in gibanjem ustnic, artikulirajoč katerikoli tekst v glasu, generiranem iz vhodnega vzorca. Čeprav takšna tehnologija ni brez primere—z demonstracijami od Runwaya in Nvidie, ki jih lahko omenimo—se zdi, da Microsoftova izvedba presega svoje predhodnike glede elegancije in realnosti.

Revolucionarne animacijske lastnosti ponuja VASA-1, ustvarja animacije z ločljivostjo do 512×512 slikovnih pik, ki dosega 45 sličic na sekundo. Izjemno, postopek zahteva zgolj dve minuti na namiznem računalniku opremljenem z GeForce RTX 4090. Pomembno je, da brezhibno obvladuje različne umetniške stile, pri čemer ne zahteva popolnih slik s frontnim pogledom.

Zmožnost postavljanja besed v usta vsakogar, s pomočjo odlomljenega avdio posnetka iz videoposnetka in preproste fotografije iz družbenih medijev, lahko predstavlja grožnjo. Ob upoštevanju možnosti zlorabe je Microsoft omejil dostop izključno na svojo inženirsko ekipo. Podjetje se je odločilo, da ne bo javno objavilo niti integriralo te tehnologije v druge izdelke, s čimer zmanjšuje tveganja, da bi tako močna tehnologija postala na voljo širšemu občinstvu.

Pomembna vprašanja:

1. Kaj je VASA-1?
2. Kako se VASA-1 primerja z obstoječimi tehnologijami podjetij Runway in Nvidia?
3. Kakšne potencialne posledice prinaša izum VASA-1?
4. Kako Microsoft omiljuje tveganja, povezana z zlorabo te tehnologije?

Odgovori:

1. VASA-1 je umetna inteligenca, razvita s strani Microsofta, ki lahko oživi statične slike s realističnimi izrazi obraza in gibanjem ustnic, uporablja ustrezen vzorec glasu za artikulacijo besedila.
2. Čeprav obstajajo podobne tehnologije, je VASA-1 podjetja Microsoft opazen zaradi svoje prefinjenosti in realističnosti. Obvladuje različne umetniške sloge in gladko ustvarja visokoločljive animacije.
3. Potencialne posledice VASA-1 so tako navdušujoče kot tudi zaskrbljujoče. Lahko se uporablja za oživljanje zgodovinskih osebnosti in umetnin, izboljšanje izobraževalnih vsebin ali ustvarjanje bolj dinamičnih predstavitev. Vendar pa je tveganje zlorabe za ustvarjanje deepfake-ov ali širjenje dezinformacij.
4. Da bi omilil tveganja, je Microsoft trenutno omejil dostop do te tehnologije zgolj na svojo inženirsko ekipo in je ni izdal javnosti niti je ni integriral v druge izdelke.

Pomembni izzivi in kontroverze:

– Etika: Možnost ustvarjanja realističnih videoposnetkov iz fotografije in zvočnega posnetka povzroča skrbi glede tehnologije globokofake in njenega potenciala za zlorabo, vključno s ustvarjanjem lažnih pripovedi ali posnemanjem posameznikov brez dovoljenja.
– Zasebnostne skrbi: Obstaja možnost, da bi tovrstno tehnologijo uporabili za izkoriščanje osebnih fotografij in zvoka iz družbenih medijev ali drugih virov, kar postavlja vprašanja o soglasju in zasebnosti.
– Dostop in nadzor: Določanje, kdo bi moral imeti dostop do močne AI tehnologije, je izziv. Microsoft se je odločil strogo omejiti VASA-1, da bi preprečil zlorabo.
– Preverjanje pristnosti: Ko postaja umetna inteligenca vse boljša pri ustvarjanju realističnih animacij, postaja ključna potreba po zanesljivih metodah za razlikovanje med vsebino, ki jo ustvarja AI, in avtentično vsebino, ustvarjeno s strani človeka.

Prednosti in slabosti:

– Prednosti:
– Izobraževalne in zabavne vsebine se lahko bistveno izboljšajo s pomočjo oživljanja statičnih slik.
– Zgodovinske in kulturne vsebine so lahko bolj dostopne in privlačne s pomočjo animiranih upodobitev.
– Tehnologija bi lahko pomagala pri učenju jezikov s pomočjo animiranja pogovorne prakse z zgodovinskimi ali fikcijskimi liki.

– Slabosti:
– Možnost ustvarjanja prepričljivih deepfake-ov, ki bi jih lahko zlorabili na zlonamerne načine.
– Lahko ima negativne učinke na koncepte avtentičnosti in zaupanja v medije.
– Nastavlja precedens za nadaljnji razvoj AI v panogah, kjer etični vidiki še niso v celoti razumljeni ali urejeni.

Za nadaljnje informacije je koristno raziskovati glavna področja nekaterih ključnih igralcev na tem področju:

– Microsoft, za vpogled v najnovejše dosežke in njihov pristop k etični umetni inteligenci.
– OpenAI, vodilni na področju raziskav s področja umetne inteligence in razvoja inovativnih orodij za umetno inteligenco.

Vedno je pomembno upoštevati vir informacij in ostati posodobljen s najnovejšimi novicami iz zanesljivih virov, saj se tehnologija AI in politike glede njenega uporabnika nenehno razvijajo.

The source of the article is from the blog elblog.pl