Tencent открыла Hunyuan World 1.1 (WorldMirror) — нейросеть для создания 3D-сцен по фото и видео

Компания Tencent открыла исходный код и веса Hunyuan World 1.1, известной также как WorldMirror. Это универсальная feed-forward модель, которая генерирует трёхмерные сцены практически из любых входных данных — от видео и фото до комбинации снимков с разных ракурсов.
В отличие от версии Hunyuan World 1.0, которая фокусировалась на генерации 3D-миров из текста или одного изображения, новая модель делает ставку на точную реконструкцию реальной геометрии и поддержку видео. По сути, это шаг от «создания фантазийных миров» к воспроизведению реальности.


Что умеет нейросеть Hunyuan World 1.1
1. Любые входные данные.
WorldMirror принимает на вход видео, серию фото или одиночные изображения. При желании пользователь может добавить геометрические приоры — позы камер, фокусные расстояния, карты глубины — чтобы улучшить точность и устранить неоднозначности в структуре сцены.
2. Любые выходные данные.
Модель генерирует сразу несколько 3D-представлений в одном проходе:
- плотные облака точек (dense point clouds);
 - карты глубины для разных ракурсов;
 - параметры камер;
 - нормали поверхностей;
 - 3D Gaussian Splatting — формат, подходящий для современных рендеров и движков.
 
3. Быстро и просто.
Hunyuan World 1.1 — это feed-forward архитектура без итеративных шагов оптимизации. Весь процесс реконструкции выполняется на одной GPU и занимает несколько секунд. Это делает модель удобной для применения в реальном времени и в продакшн-пайплайнах.
Почему это важно? Раньше, чтобы восстановить 3D-сцену из видео или фото, требовались мощные серверы и много времени — иногда десятки минут на один объект. WorldMirror делает то же самое за несколько секунд и на одной видеокарте.
Модель не нужно долго настраивать под каждый набор данных — она работает «из коробки». Благодаря этому 3D-реконструкцию теперь можно использовать гораздо шире: быстро генерировать объекты и сцены для игр или VR, делать цифровые копии зданий и помещений, а также визуализировать сцены для фильмов.
Tencent утверждает, что WorldMirror показывает результаты уровня лучших в мире моделей (SOTA) на популярных наборах данных — и особенно хорошо работает, если добавить подсказки вроде позиции камер или карт глубины.
Статья в тему: Промты для создания 3D-фигурок и кукол в коробке
Как пользоваться Hunyuan World 1.1?
Модель Hunyuan World 1.1 (WorldMirror) распространяется по лицензии Tencent Hunyuan World Mirror Community License — она разрешает исследовательское и ограниченное коммерческое использование.
Использовать её можно двумя способами:
- Скачать и запустить локально. Репозиторий HunyuanWorld-Mirror на GitHub содержит код инференса, примеры и подробные инструкции по установке.
 - Попробовать онлайн. На Hugging Face доступны веса модели и демо-интерфейс: можно загрузить видео или набор снимков и получить готовую 3D-сцену прямо в браузере.
 
Летом 2024 года Tencent представила Hunyuan World 1.0, модель для генерации 3D-миров из текста или одиночного изображения. Позже вышла Hunyuan World Lite — версия для обычных видеокарт. Теперь компания делает следующий шаг — универсальную 3D-реконструкцию из реальных данных, объединяющую разные направления (текст → 3D, фото → 3D, видео → 3D) в одном решении.
Итог: Tencent сместила фокус с генерации вымышленных 3D-миров на реконструкцию реальных сцен. Hunyuan World 1.1 (WorldMirror) показывает переход индустрии от «творческих» моделей, создающих фантазии по тексту, к практическим инструментам, которые точно восстанавливают геометрию и физику окружающего мира.
По сути, Tencent предлагает универсальный пайплайн для цифрового копирования реальности — шаг к «реальному» 3D-интеллекту, где модели не придумывают, а понимают и воспроизводят мир.
Ранее Lightricks представила нейросеть LTX-2, которая нативно генерирует видео в 4K.
⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: .
Тэги Нейросети
