Еще год назад сгенерированные нейронкой видео выглядели настолько убого, что казалось эта сложнейшая задача еще долго не будет поддаваться ИИ. В это верили многие, кроме специалистов и ИИ-энтузиастов. На днях OpenAI показала, на что способна Sora – их новая нейронка, которая генерирует видео по описанию. Качество этих видео настолько высоки, что они на голову выше всех конкурентов. Давайте кратко пройдемся по тому, что из себя представляет Sora, которая пока что доступна очень узкому кругу тестировщиков.
Что такое Sora и как она работает?
Sora – это глубокая нейронная сеть, которая может производить видео высокого качества длительностью до минуты из естественных языковых запросов. Sora обучена на большом наборе данных из видео и изображений различных типов, продолжительности, разрешения и соотношения сторон. Она может генерировать видео с разнообразным содержанием, таким как животные, пейзажи, люди, объекты и действия.
Sora принимает текстовый запрос в качестве входа и генерирует видео в качестве выхода. Текстовый запрос может быть чем угодно, от простого описания до сложного повествования. То есть даже таких коротких запросов типа “Собака бегает по пляжу”, “Человек играет на гитаре перед толпой” или даже “Дракон дышит огнем на замок” уже достаточно, чтобы нейросеть начала генерировать соответствующие видеоролики.
Sora также может генерировать видео, которые не основаны на реальных сценариях, а скорее на воображении пользователя. Например, “Единорог прыгает через радугу”, “Динозавр сражается с роботом в городе”, “Волшебник накладывает заклинание на дракона” или “Русалка плавает с дельфинами”. Что, вы тоже уже понимаете, что скоро любой сможете начать снимать свои собственные фильмы?
Какие возможности и ограничения у Sora?
Sora – это мощная модель, которая может создавать реалистичные и воображаемые сцены из текстовых инструкций. Однако она не идеальна и имеет некоторые ограничения. Некоторые из проблем связаны с поддержанием визуального качества и связности на протяжении длительного времени, обработкой сложных и неоднозначных запросов, требующих рассуждения и здравого смысла или обеспечением этичного и ответственного использования сгенерированных видео.
Sora все еще находится в стадии разработки, и исследователи постоянно улучшают ее. Они надеются, что нейронка позволит создавать новые приложения и впечатления для пользователей, такие как рассказывание историй, образование, развлечение и искусство. Они также надеются, что Sora вдохновит на новые исследования и инновации в области генерации и понимания видео.
Однако надежды – это лишь часть работы. Мы же как пользователи не должны забывать, что на ряду с новыми возможностями будут и новые риски, к которым следует быть готовыми. С ростом и развитием подобных нейронок уже нельзя быть уверенным не только в том, что читаешь и слышишь, но тому, что видишь на записи. Роль критического мышления растет с каждым днем и это уже не метафора.