Tencent открыла Hunyuan World 1.1 (WorldMirror) — нейросеть для создания 3D-сцен по фото и видео

0 0


Tencent открыла Hunyuan World 1.1 (WorldMirror) — нейросеть для создания 3D-сцен по фото и видео

Компания Tencent открыла исходный код и веса Hunyuan World 1.1, известной также как WorldMirror. Это универсальная feed-forward модель, которая генерирует трёхмерные сцены практически из любых входных данных — от видео и фото до комбинации снимков с разных ракурсов.

В отличие от версии Hunyuan World 1.0, которая фокусировалась на генерации 3D-миров из текста или одного изображения, новая модель делает ставку на точную реконструкцию реальной геометрии и поддержку видео. По сути, это шаг от «создания фантазийных миров» к воспроизведению реальности.


Tencent открыла Hunyuan World 1.1 (WorldMirror) — нейросеть для создания 3D-сцен по фото и видео


Tencent открыла Hunyuan World 1.1 (WorldMirror) — нейросеть для создания 3D-сцен по фото и видео

Что умеет нейросеть Hunyuan World 1.1

1. Любые входные данные.

WorldMirror принимает на вход видео, серию фото или одиночные изображения. При желании пользователь может добавить геометрические приоры — позы камер, фокусные расстояния, карты глубины — чтобы улучшить точность и устранить неоднозначности в структуре сцены.

2. Любые выходные данные.

Модель генерирует сразу несколько 3D-представлений в одном проходе:

  • плотные облака точек (dense point clouds);
  • карты глубины для разных ракурсов;
  • параметры камер;
  • нормали поверхностей;
  • 3D Gaussian Splatting — формат, подходящий для современных рендеров и движков.

3. Быстро и просто.

Hunyuan World 1.1 — это feed-forward архитектура без итеративных шагов оптимизации. Весь процесс реконструкции выполняется на одной GPU и занимает несколько секунд. Это делает модель удобной для применения в реальном времени и в продакшн-пайплайнах.

Почему это важно? Раньше, чтобы восстановить 3D-сцену из видео или фото, требовались мощные серверы и много времени — иногда десятки минут на один объект. WorldMirror делает то же самое за несколько секунд и на одной видеокарте.

Модель не нужно долго настраивать под каждый набор данных — она работает «из коробки». Благодаря этому 3D-реконструкцию теперь можно использовать гораздо шире: быстро генерировать объекты и сцены для игр или VR, делать цифровые копии зданий и помещений, а также визуализировать сцены для фильмов.

Tencent утверждает, что WorldMirror показывает результаты уровня лучших в мире моделей (SOTA) на популярных наборах данных — и особенно хорошо работает, если добавить подсказки вроде позиции камер или карт глубины.

Статья в тему: Промты для создания 3D-фигурок и кукол в коробке

Как пользоваться Hunyuan World 1.1?

Модель Hunyuan World 1.1 (WorldMirror) распространяется по лицензии Tencent Hunyuan World Mirror Community License — она разрешает исследовательское и ограниченное коммерческое использование.

Использовать её можно двумя способами:

  • Скачать и запустить локально. Репозиторий HunyuanWorld-Mirror на GitHub содержит код инференса, примеры и подробные инструкции по установке.
  • Попробовать онлайн. На Hugging Face доступны веса модели и демо-интерфейс: можно загрузить видео или набор снимков и получить готовую 3D-сцену прямо в браузере.

Летом 2024 года Tencent представила Hunyuan World 1.0, модель для генерации 3D-миров из текста или одиночного изображения. Позже вышла Hunyuan World Lite — версия для обычных видеокарт. Теперь компания делает следующий шаг — универсальную 3D-реконструкцию из реальных данных, объединяющую разные направления (текст → 3D, фото → 3D, видео → 3D) в одном решении.

Итог: Tencent сместила фокус с генерации вымышленных 3D-миров на реконструкцию реальных сцен. Hunyuan World 1.1 (WorldMirror) показывает переход индустрии от «творческих» моделей, создающих фантазии по тексту, к практическим инструментам, которые точно восстанавливают геометрию и физику окружающего мира.

По сути, Tencent предлагает универсальный пайплайн для цифрового копирования реальности — шаг к «реальному» 3D-интеллекту, где модели не придумывают, а понимают и воспроизводят мир.

Ранее Lightricks представила нейросеть LTX-2, которая нативно генерирует видео в 4K.

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: .

Тэги Нейросети

Источник

Оставьте ответ

Ваш электронный адрес не будет опубликован.