Новая система искусственного интеллекта расширяет временные рамки генеративного видео

Новая система искусственного интеллекта расширяет временные рамки генеративного видео
23:00, 10 Фев.

Группа исследователей из EPFL сделала важный шаг к решению проблемы дрейфа в генеративном видео, из-за которого последовательности становятся несогласованными через несколько секунд. Их прорыв открывает путь к созданию видео с использованием ИИ без временных ограничений.

Сегодня любой может создать реалистичные изображения всего за несколько кликов с помощью ИИ. Однако создание видеороликов — гораздо более сложная задача. Существующие модели ИИ способны создавать видео, которые работают менее 30 секунд, после чего начинают искажаться, превращаясь в случайность с несогласованными формами, цветами и логикой.

Эта проблема называется дрейфом, и специалисты по информатике работают над ней уже много лет.

В EPFL исследователи из лаборатории визуального интеллекта для транспорта (VITA) применили новаторский подход — работают с ошибками, а не обходят или игнорируют их, — и разработали метод генерации видео, который, по сути, исключает дрейф.

Их метод основан на повторном использовании ошибок в модели ИИ, чтобы она училась на собственных ошибках. Обучение машин совершать ошибки Дрейф приводит к тому, что видеоролики становятся все более нереалистичными по мере их создания.

Это происходит потому, что программы для генерации видео обычно используют только что созданное изображение в качестве отправной точки для следующего. Это означает, что любые ошибки в этом изображении — например, размытое лицо или слегка деформированный объект — будут усиливаться в следующем ролике, и ошибка будет только усугубляться по мере продолжения последовательности.

«Проблема в том, что модели обучаются только на идеальных наборах данных, но при использовании в реальных условиях им необходимо знать, как обрабатывать входные данные, содержащие собственные ошибки», — говорит профессор Александр Алахи, руководитель лаборатории VITA.

Новый метод, разработанный в EPFL, называется переобучением путем повторного использования ошибок, и он успешно устраняет дрейф.

Исследователи начинают с того, что модель генерирует видео, а затем измеряют ошибки в этом видео — то есть разницу между полученными изображениями и изображениями, которые должны были быть получены, — по различным метрикам.

Эти ошибки сохраняются в памяти. При следующем обучении модели ошибки намеренно вводятся обратно в систему, чтобы модель была вынуждена работать в условиях, приближенных к реальным.

В результате модель постепенно учится возвращаться к исходному состоянию после просмотра несовершенных данных, возвращаясь к изображениям, которые являются четкими и соответствуют логической последовательности для человека — даже если исходное изображение было деформировано.

После такого обучения модель становится более устойчивой и учится стабилизировать видео после получения изображений с ошибками. По словам Уяна Ли, научного сотрудника лаборатории, «в отличие от людей, генеративный ИИ редко умеет исправлять свои ошибки, что приводит к дрейфу.

Поэтому мы учим модели, как это делать и как оставаться стабильными, несмотря на несовершенства». «Наш метод предполагает внесение корректировок, не требующих больших вычислительных мощностей или огромных массивов данных, и которые делают результаты работы программ искусственного интеллекта более стабильными», — говорит Алахи.

«Это немного похоже на обучение пилота в условиях турбулентности, а не в ясном голубом небе».

Этот метод интегрирован в систему под названием Stable Video Infinity (SVI), которая может генерировать качественные видеоролики продолжительностью несколько минут и более.

SVI, доступный в открытом доступе на GitHub, был протестирован путем сравнения многочисленных видеороликов, созданных им самим, с аналогичными последовательностями, сгенерированными другой системой искусственного интеллекта.

Он будет представлен на Международной конференции по обучению представлениям ( ICLR 2026 ) в апреле. Эксперты из различных областей, включая аудиовизуальное производство, анимацию и видеоигры, проявили интерес к этой технологии.

«У нас есть конкретные цифры, подтверждающие эффективность нашей системы искусственного интеллекта», — говорит Ли. «Наша работа была представлена ​​одним из крупнейших ютуберов в сообществе ИИ и за несколько недель набрала более 150 тысяч просмотров и более 6 тысяч голосов.

Кроме того, наш репозиторий с открытым исходным кодом получил более 1900 звезд на GitHub, сайте для размещения кода, что демонстрирует его влияние на сообщество». Кроме того, новый метод поможет исследователям VITA Lab разрабатывать автономные системы, которые будут более безопасными, эффективными и способными беспрепятственно взаимодействовать с людьми.

Мультимодальный ИИ, объединяющий видео, изображения и звук Эксперты VITA Lab также использовали свой подход к повторному использованию ошибок для разработки еще одного метода, называемого LayerSync , который они также представят на ICLR.

Подробности о методе доступны на сервере препринтов arXiv.

С помощью LayerSync модель ИИ повторно использует не только видимые ошибки, но и свою внутреннюю логику. «Некоторые части модели лучше понимают смысл изображений», — говорит Алахи. «LayerSync позволяет этим более «экспертным» частям направлять другие части во время обучения модели, как если бы модель корректировала себя изнутри.

В результате модель обучается быстрее, поскольку использует собственные сигналы для контроля процесса, без необходимости в дополнительных данных или внешних моделях.

Это позволяет создавать контент более высокого качества, будь то видео, изображения или звук».

Рубрика: Развлечения и Интернет. Читать весь текст на android-robot.com.