Startup-ul AI ElevenLabs își îndreaptă atenția către efectele de sunet în producția video

Într-o dezvoltare revoluționară, startup-ul de vorbire cu inteligență artificială (AI) ElevenLabs a anunțat planurile sale de a revoluționa domeniul producției video prin includerea efectelor de sunet generate de AI. În timp ce este recunoscut pentru serviciile sale de vorbire text-la-sinteză umană și de voce sintetică, acest ultim efort își propune să îmbunătățească videoclipurile create folosind modelul Sora de la OpenAI cu un acompaniament audio realist.

OpenAI a prezentat recent remarcabilul său model Sora de text-la-video AI, prezentând cele mai realiste, consistente și lungi videoclipuri generate de AI până în prezent. În răspuns, ElevenLabs și-a exprimat admirația față de realizarea OpenAI, în timp ce recunoaște oportunitatea de a îmbunătăți și mai mult experiența vizualizatorului. Startup-ul își imaginează adăugarea unei game diverse de sunete, inclusiv pași, valuri și ambianță, în modelul lor de text-pentru-efecte de sunet (sfx).

ElevenLabs, cunoscut pentru abilitatea sa de a crea voci sintetice atât de naturale încât sunt practic deosebit de indistinguibile de vorbirea umană, a ajuns în vârful atenției în 2022. Compania din Marea Britanie a obținut statutul de unicorn mai devreme în acest an după ce a asigurat 80 de milioane de dolari în finanțare Seria B. Împreună cu această realizare, ElevenLabs a dezvăluit o unealtă pentru sincronizarea vorbirii AI în videoclipuri pentru a facilita traducerile automate, intrând astfel pe piața dublajului internațional.

Deși există deja modele de text-pentru-sfx disponibile, cum ar fi myEdit, AudioGen și Stable Audio, efectele de sunet produse de ElevenLabs se evidențiază prin realitatea lor excepțională. În prezent, rămâne neclar câtă editare implică procesul. Cu toate că data de lansare a modelului de text-pentru-sfx încă nu a fost anunțată, persoanele interesate se pot alătura listei de așteptare furnizând un prompt de sunet.

Privind în viitor, viitorul producției video AI promite adăugări automate de efecte de sunet bazate pe analiza conținutului video. O dezvoltare similară ar putea avea loc în domeniul producției muzicale, unde majoritatea instrumentelor AI activează în prezent pe baza textului-pentru-muzică. Pe măsură ce capacitățile multimodale continuă să avanseze, integrarea de prompturi de imagine sau video ar putea facilita generarea de conținut holistic și bine rotunjit, apropiindu-ne de visul de mult timp al AI generative.

În concluzie, incursiunea ElevenLabs în efectele de sunet generate de AI reprezintă o avansare semnificativă în lumea producției video. Prin combinarea unui acompaniament audio realist cu vizuale realiste, startup-ul deschide calea către o experiență mai captivantă și imersivă pentru vizualizatori.

The source of the article is from the blog papodemusica.com