Cím

Az Mesterséges Intelligencia fotorealisztikus videókat hoz létre szöveg leírások alapján

OpenAI nemrég bemutatta legújabb AI rendszerét, a Sora-t, amely képes fotorealisztikus videókat generálni szöveg leírások alapján. Ez az áttörést jelentő videó generációs modell izgalmat kelt az előrehaladó AI technológia terén, ugyanakkor felmerülnek aggodalmak a deepfake videók terjedésének potenciálja miatt, amelyek dezinformációt és félrevezető információkat terjeszthetnek fontos globális események idején, például választásokkor.

A jelenleg legfeljebb 60 másodperces videók előállítására alkalmas Sora vagy szöveges utasításokat vagy szöveg és képek kombinációját használja lenyűgöző vizuális sorozatok létrehozásához. Egy lenyűgöző bemutató videó egy divatos nőt ábrázolt, ahogy sétál egy Tokiói utcán meleg neonfényekkel és animált városi táblákkal díszítve. Más példák közé tartozik egy játékos kutya a hóban, járművek utazása utakon, és még olyan fantasztikus helyzetek, mint cápák úszása a városi felhőkarcolók között.

Az AI által hajtott videó generáció jelentős előrelépés a realizmus és az elérhetőség terén. Rachel Tobac, a SocialProof Security egyik alapítója dicséri a Sorát, mint az elődjénél „rendelési nagyságrendtel hihetőbb és kevésbé rajzfilm jellegű”. A Sora két különböző AI technika kombinálásával magasabb szintű hitelességet ér el. Az első technika, egy diffúziós modell, hasonlóan az OpenAI DALL-E képgenerátorához, fokozatosan alakítja át a randomizált képpontokat koherens vizuálissá. A második technika, a „transzformátor architektúra,” kontextualizálja és összeszerkeszti a szekvenciális adatokat, ahogy a nyelvi modellek mondatokat konstruálnak.

Annak ellenére, hogy a Sorának van haladása, videói időnként még mindig hibákat mutatnak, például lábakkal történő helycserét, lebegő székeket, vagy csodálatos módon eltűnő harapásnyomokkal rendelkező kekszeket. Az ilyen hibák észlelése arra utal, hogy ilyen típusú deepfake videók azonosíthatóak maradnak bonyolult jelenetekben, nagyfokú mozgással. Azonban az szakértők figyelmeztetnek arra, hogy ahogy a technológia fejlődik, a társadalomnak alternatív módszereket kell találnia az alkalmazkodásra.

Az OpenAI szigorú „red team” gyakorlatokat végez a Sora sebezhetőségeinek értékelésére a nyilvános elérhetőség előtt. Ezek a tesztek olyan szakterületek szakértőit vonják be, akik tapasztaltak a dezinformáció, gyűlöletkeltő tartalmak és elfogultság kezelésében. Mivel a deepfake videóknak van potenciáljuk arra, hogy becsapják a gyanútlan embereket, lényeges, hogy proaktívan lépjünk fel az ilyen hatások ellen. Az együttműködés az AI cégek, a közösségi média platformok és a kormányok között létfontosságú szerepet játszik az AI által létrehozott tartalmak széleskörű használatával járó kockázatok enyhítésében. Az egyedi azonosítók vagy „vízjelek” implementálása az AI által generált videók védelmének hatékony stratégiává válhatnak.

Bár az OpenAI nem részletezte a Sora 2024-es elérhetőségére vonatkozó konkrét terveket, a cég hangsúlyozza a jelentős biztonsági intézkedések fontosságát a kibocsátás előtt. Az automatizált folyamatok már működésben vannak annak érdekében, hogy megakadályozzák a szélsőséges erőszak, szexuális tartalom, gyűlöletkeltő képek és valós politikusok vagy hírességek ábrázolását. Ezek az óvintézkedések különösen fontosak, mivel egyre többen vesznek részt választásokon, ami a digitális tartalom biztonságát és integritását elsődleges célként állítja.

Gyakran Ismételt Kérdések (FAQ):
1. Mi az a Sora?
A Sora az OpenAI legújabb AI rendszere, amely képes fotorealisztikus videókat generálni szöveg leírások alapján.

2. Hogyan működik a Sora?
A Sora vagy szöveges utasításokat vagy szöveg és képek kombinációját használja viszualisztan lenyűgöző videó sorozatok létrehozásához. Kombinál két AI technikát: egy diffúziós modellt, amely randomizált képpontokat alakít koherens vizuálissá, és egy transzformátor architektúrát, amely kontextualizálja és összeszerkeszti a szekvenciális adatokat.

3. Milyen példák vannak a Sorának által generált videókból?
A Sorának által generált videók példái közé tartozik egy divatos nő sétája egy Tokiói utcán, egy játékos kutya a hóban, járművek utazása utakon, és még olyan fantasztikus helyzetek, mint cápák úszása a városi felhőkarcolók között.

4. Milyen valósághűek a Sorának a videói?
A Sorának videóit magas valósághűségnek tartják, és ez egy fejlődés az előző AI rendszerekhez képest. Leírás alapján, mint a „rendelési nagyságrendtel hihetőbb és kevésbé rajzfilm jellegű” a korábbiakhoz képest.

5. Vannak-e korlátai vagy hibák a Sorának videóiban?
Bár a Sorának a videói magas szintű realizmust mutatnak, néha hibákat is mutathatnak, például objektumok helycseréje vagy egyéb hibák. Ezeknek a hibáknak az észlelése lehetőség marad, különösen összetett jelenetekben mozgással.

6. Hogyan kezeli az OpenAI a deepfake videók potenciális kockázatait?
Az OpenAI szigorú „red team” gyakorlatokat végez a Sora sebezhetőségeinek értékelésére a nyilvános elérhetőség előtt. Az együttműködés az AI cégek, a közösségi média platformok és a kormányok között létfontosságú a kockázatok enyhítése szempontjából az AI által generált tartalmak esetében. Az egyedi azonosítók vagy „vízjelek” is lehetnek egy hatékony védelmi stratégia az AI által generált videókkal szemben.

7. Mikor lesz elérhető a Sora?
Az OpenAI még nem részletezte a Sora 2024-es elérhetőségére vonatkozó konkrét terveket. A cég hangsúlyozza a jelentős biztonsági intézkedések fontosságát a kibocsátás előtt.

Definíciók:
– Deepfake: Egy technika, amelyet azért használnak, hogy létrehozzanak vagy manipuláljanak videótartalmakat, gyakran arcok cseréjével vagy vizuális elemek megváltoztatásával egy realisztikus módon az Mesterséges Intelligencia segítségével.
– Dezinformáció: Hamis vagy félrevezető információ, ami szándékosan terjed, hogy becsapja vagy félrevezesse az embereket.
– Transzformátor architektúra: Egy olyan típusú neurális hálózat, amely kiválóan képes feldolgozni szekvenciális adatokat, például nyelvi modellek mondatok összeállítása.

Kapcsolódó linkek:
– OpenAI DALL-E
– OpenAI hivatalos weboldala

The source of the article is from the blog radiohotmusic.it