Нова модель штучного інтелекту "Sora" розширює межі генерації тексту в відео

OpenAI, відома своїми впливовими інструментами штучного інтелекту, такими як ChatGPT і Dall-E, тепер представила свою останню створення під назвою Sora, модель відео, створена штучним інтелектом. Ця проривна модель поєднує потужність “моделі дифузії” та “трансформатора” для передбачення та генерації відеопослідовностей на основі обширних навчальних даних.

У відміну від попередників, Sora виділяється своєю здатністю створювати різноманітні типи відео, від фотореалістичних до анімованих і навіть ексцентричних, з максимальною довжиною шістдесят секунд. Хоча наразі ще не доступний для публічного тестування, публікація зразків відео від OpenAI викликала значний захват, багато хто з нетерпінням чекає можливості спробувати його власноруч.

Перші враження від здатностей Sora підтверджують, що він перевершив попередні інструменти генерації відео з тексту за якістю та послідовністю. У той час як раніше згенеровані штучним інтелектом відео часто мали непослідовності та спотворення, Sora вирішує ці виклики прямолінійно. OpenAI зазначає, що Sora може створювати складні сцени з кількома персонажами, симулювати рух у фізичному світі та точно представляти необхідність об’єктів. Результатом є візуально зв’язне відео, яке підтримує ілюзію без переривань.

Незважаючи на його вражаючі досягнення, у Sora є свої обмеження. OpenAI визнає, що він може мати проблеми з точним симулюванням складної фізики в сцені, розумінням причино-наслідкових зв’язків та точною репрезентацією просторових деталей. Важливі подробиці, такі як конкретна модель GPT, використана для розвитку Sora, навчальні дані, дата виходу та ціноутворення, залишаються невідомими.

Однак перші приклади можливостей генерації відео Sora свідчать про його потенційний вплив на різні галузі. Від створення захоплюючих трейлерів фантастики та інструктивних кулінарних сесій до виробництва анімаційних короткометражок у стилі Pixar та загальних повітряних кадрів для рекламних потреб — Sora має потенціал революціонізувати галузі відеопродакшну, кінематографії, геймінгу та навіть створення контенту в соціальних мережах.

Хоча з нетерпінням очікується публікація більшої інформації та розширення доступу до Sora, неоспоримо, що ця остання модель штучного інтелекту вже розширила межі того, що можна досягти у сфері генерації тексту в відео. Майбутні можливості для Sora та її вплив на візуальне оповідання безумовно захоплюють, породжуючи питання про неймовірний потенціал відео, створеного за допомогою штучного інтелекту, в майбутніх роках.

The source of the article is from the blog mivalle.net.ar