Новый подход упрощает визуализацию реалистичных 3D-сред на основе обычных фотографий, уже размещенных в интернете, открывая новые возможности в таких отраслях, как игровая индустрия, виртуальный туризм и сохранение культурного наследия.
Хадар Авербух-Элор, доцент Корнеллского технологического института, входит в исследовательскую группу, разработавшую «WildCAT3D» — новую платформу, значительно расширяющую возможности синтеза новых ракурсов (NVS), метода, позволяющего создавать реалистичные ракурсы сцены, используя всего лишь одну существующую фотографию.
Работа, представленная 4 декабря на конференции и семинаре по нейронным информационным системам ( NeurIPS 2025 ), посвящена ключевому ограничению современных технологий генерации 3D-изображений: большинство систем могут обучаться только на небольших, тщательно подобранных наборах данных, которые совершенно не похожи на некачественные, непоследовательные изображения, которые люди на самом деле делают и публикуют в интернете.
Статья также доступна на сервере препринтов arXiv .
Как WildCAT3D преодолевает существующие проблемы WildCAT3D демонстрирует, как можно обучать компьютеры, используя большие коллекции свободно доступных изображений — туристические снимки; фотографии, сделанные в разную погоду, при разном освещении и в разные времена года; или частично скрытые сцены.
Именно такие изображения могли бы использоваться в таких приложениях, как виртуальный туризм, видеоигры, сохранение исторических памятников и иммерсивное картографирование, но традиционно они были слишком непостоянны для использования в существующих моделях.
«Главная задача заключалась в том, как разработать многоракурсную модель распространения, способную обучаться на основе данных, полученных из интернета в реальных условиях, где наблюдения за сценой демонстрируют значительные вариации — например, в освещении, погоде, кратковременных объектах и так далее», — сказала Авербух-Элор, которая также работает в Колледже вычислительной техники и информационных наук им.
Энн С.
Боуэрс при Корнельском университете. WildCAT3D помогает искусственному интеллекту сосредоточиться на том, что действительно важно в сцене.
Вместо того чтобы путаться из-за изменений освещения, погоды или ракурса камеры, система учится распознавать стабильную структуру местности, рассматривая такие визуальные различия как преходящие детали.
Потенциальные области применения и будущее влияние Такой подход делает его гораздо более полезным в реальных условиях. WildCAT3D может взять одну фотографию и сгенерировать несколько реалистичных изображений одного и того же места, что позволяет «прогуляться» по местности, которая была сфотографирована только один раз.
Эта возможность открывает двери для более насыщенных впечатлений от виртуального туризма, более захватывающих видеоигр и более точных цифровых реконструкций реальных мест.
Это также позволяет создателям и исследователям легко изучать, как сцена может выглядеть при различных погодных условиях и освещении.
Такая гибкость особенно ценна для сохранения культурных достопримечательностей, планирования окружающей среды до ее строительства или реставрации, а также для создания реалистичных виртуальных пространств без необходимости дорогостоящих и тщательно контролируемых фотосессий.
Авербух-Элор рассматривает эту работу как шаг к тому, чтобы сделать создание высококачественных 3D-сцен более доступным, позволяя любому, у кого есть обычные фотографии, а не только специализированным командам с собственными наборами данных, создавать реалистичные цифровые миры.
«Мы надеемся, что наша работа послужит катализатором перехода к генеративным структурам, согласующимся с 3D-моделированием и обучающимся непосредственно на основе данных из интернета, распространяемых по разрешительным лицензиям, что позволит снизить зависимость данной области от тщательно отобранных многоракурсных наборов данных», — сказала она.
Рубрика: Развлечения и Интернет. Читать весь текст на android-robot.com.