Создатель ChatGPT теперь занимается видео, генерируемым искусственным интеллектом.
Встречайте Sora — новый генератор текста в видео от OpenAI. Инструмент, который компания из Сан-Франциско представила в четверг, использует генеративный искусственный интеллект для мгновенного создания коротких видеороликов на основе письменных команд.
Сора не первый, кто демонстрирует подобную технологию. Но отраслевые аналитики отмечают высокое качество видео, показываемых этим инструментом, и отмечают, что его внедрение знаменует собой значительный скачок как для OpenAI, так и для будущего преобразования текста в видео в целом.
Тем не менее, как и все, что сегодня происходит в быстрорастущем пространстве искусственного интеллекта, такая технология также вызывает опасения по поводу потенциальных этических и социальных последствий. Вот что вам нужно знать.
ЧТО ТАКОЕ СОРА?
Sora — это генератор текста в видео, который создает видеоролики продолжительностью до 60 секунд на основе письменных подсказок с использованием генеративного искусственного интеллекта. Модель также может генерировать видео из существующего неподвижного изображения.
Генеративный ИИ — это отрасль ИИ, которая может создавать что-то новое. Примеры включают чат-боты, такие как ChatGPT от OpenAI, и генераторы изображений, такие как DALL-E и Midjourney. Заставить систему искусственного интеллекта генерировать видео — более новая и сложная задача, но она опирается на некоторые из тех же технологий.
Sora пока недоступна для публичного использования (OpenAI заявляет, что сотрудничает с политиками и деятелями искусства перед официальным выпуском инструмента), и мы еще многого не знаем. Но после объявления в четверг компания поделилась несколькими примерами видеороликов, созданных Sora, чтобы продемонстрировать, на что она способна.
Генеральный директор OpenAI Сэм Альтман также обратился к X, платформе, ранее известной как Twitter, чтобы попросить пользователей социальных сетей присылать быстрые идеи. Позже он поделился реалистично детализированными видеороликами, которые отвечали на такие подсказки, как «два золотистых ретривера ведут подкастинг на вершине горы » и « велогонка по океану с участием разных животных в роли спортсменов, едущих на велосипедах под видом камеры дрона».
Хотя видео, созданные с помощью Sora, способны отображать сложные, невероятно детализированные сцены, OpenAI отмечает, что у них все же есть некоторые недостатки, в том числе некоторые пространственные и причинно-следственные элементы. Например, OpenAI добавляет на своем веб-сайте: «Человек может откусить кусочек файла cookie, но после этого на файле cookie может не остаться следа от укуса».
ЕСТЬ ЛИ СЕГОДНЯ ДРУГИЕ ИНСТРУМЕНТЫ ДЛЯ ВИДЕО, СОЗДАННЫЕ ИИ?
Sora от OpenAI — не первый в своем роде. Google и стартап Runway ML входят в число других компаний, продемонстрировавших подобную технологию.
Тем не менее, отраслевые аналитики подчеркивают очевидное качество и впечатляющую продолжительность видеороликов Sora, опубликованных до сих пор. Фред Хавмейер, руководитель отдела исследований искусственного интеллекта и программного обеспечения в США в Macquarie, сказал, что запуск Sora знаменует собой большой шаг вперед для отрасли.
«Вы не только можете снимать более длинные видеоролики (я понимаю, до 60 секунд), но и создаваемые видеоролики выглядят более нормально и, кажется, на самом деле больше уважают физику и реальный мир», — сказал Хавемейер. «В видеопотоках не так много видеороликов или фрагментов «зловещей долины», которые выглядят… неестественно».
Несмотря на то, что за последний год был достигнут «огромный прогресс» в видео, генерируемом искусственным интеллектом, включая внедрение Stable Video Diffusion в ноябре прошлого года, старший аналитик Forrester Роуэн Карран сказал, что такие видео требуют большего «сшивания» для обеспечения согласованности персонажей и сцен.
Однако последовательность и продолжительность видеороликов Соры предоставляют «новые возможности для творческих людей включать элементы видео, созданного искусственным интеллектом, в более традиционный контент, а теперь даже создавать полноценные повествовательные видеоролики из одной или нескольких подсказок», сказал Карран The Associated Press по электронной почте в пятницу.
КАКОВЫ ПОТЕНЦИАЛЬНЫЕ РИСКИ?
Хотя способности Соры поразили наблюдателей с момента запуска в четверг, беспокойство по поводу этических и социальных последствий использования видео, созданного ИИ, также сохраняется.
Хавмейер, например, указывает на существенные риски в потенциально напряженном избирательном цикле 2024 года. Наличие «потенциально волшебного» способа создания видеороликов, которые могут выглядеть и звучать реалистично, создает ряд проблем в политике и за ее пределами, добавил он, указывая на проблемы мошенничества, пропаганды и дезинформации.
«Негативные внешние эффекты генеративного ИИ станут важной темой для дискуссий в 2024 году», — сказал Хавемейер. «Это серьезная проблема, с которой каждому бизнесу и каждому человеку придется столкнуться в этом году».
Технологические компании по-прежнему берут на себя инициативу, когда дело доходит до управления ИИ и его рисками, поскольку правительства во всем мире работают над тем, чтобы наверстать упущенное. В декабре Европейский Союз достиг соглашения о первых в мире всеобъемлющих правилах ИИ, но закон вступит в силу только через два года после окончательного утверждения.
В четверг OpenAI заявила, что принимает важные меры безопасности, прежде чем сделать Sora широко доступной.
«Мы работаем с красными командами — экспертами в таких областях, как дезинформация, разжигающий ненависть контент и предвзятость, — которые будут состязательно тестировать модель», — написали в компании. «Мы также создаем инструменты, помогающие обнаруживать вводящий в заблуждение контент, например классификатор обнаружения, который может определить, когда видео было создано Sora».
Вице-президент OpenAI по глобальным вопросам Анна Маканджу подтвердила это, выступая в пятницу на Мюнхенской конференции по безопасности , где OpenAI и 19 других технологических компаний пообещали добровольно работать вместе для борьбы с дипфейками выборов, созданными ИИ. Она отметила, что компания выпускает Сору «весьма осторожно».
В то же время OpenAI раскрыла ограниченную информацию о том, как была построена Сора. В техническом отчете OpenAI не раскрывается, какие источники изображений и видео использовались для обучения Соры, и компания не сразу ответила на запрос Associated Press о дальнейших комментариях в пятницу.
Релиз Sora также появился на фоне судебных исков против OpenAI и ее делового партнера Microsoft со стороны некоторых авторов и The New York Times по поводу использования ею защищенных авторским правом письменных произведений для обучения ChatGPT. OpenAI платит Associated Press нераскрытую сумму за лицензию на свой архив текстовых новостей.