Tencent выпустила HunyuanImage 3.0 — бесплатный аналог Midjourney с открытыми весами

Опубликовано Сен 29, 2025

Tencent официально выпустила HunyuanImage 3.0 — крупнейшую на сегодня открытую модель для генерации изображений по текстовому описанию. Она насчитывает 80 млрд параметров, при этом во время инференса задействуется около 13 млрд.

Сейчас читают

Вышла iOS 26.1 — прозрачность «Жидкого стекла» теперь можно…

Промты для новогодней ИИ-фотосессии, +подходящие нейросети

По словам команды, результат сравним с качеством ведущих закрытых моделей. Postium подготовил подробный обзор новой ИИ-модели для создания картинок.

Содержание

Toggle

Что умеет нейросеть HunyuanImage 3.0

HunyuanImage 3.0 создана на базе MoE-архитектуры (Mixture of Experts) и объединяет языковую и визуальную модель в единую систему. В отличие от традиционных диффузионных генераторов (DiT), здесь используется «трансфузионный» подход — плотная связка Diffusion и LLM-тренировки.

Это позволяет не только создавать картинки, но и осмысленно работать с длинными промтами для генерации изображений, учитывать «мировые знания» и аккуратно встраивать текст в изображения.

Что это значит на практике:

Поддержка длинных запросов до 1000+ слов.
Генерация читаемого текста на изображениях (постеры, комиксы, инфографика).
Работа со сложными стилями — от эмодзи и комиксов до образовательных иллюстраций.
Более быстрый отклик: процесс занимает минуты, а не часы.

Как обучали модель? Tencent заявляет о крупнейшем мультимодальном датасете в своей линейке: 5 млрд пар «текст–картинка», видеокадры и смешанные данные «текст + изображение», 6 трлн токенов текстовых корпусов.

Базой для модели послужил Hunyuan-A13B, мультимодальный LLM. Такой гибридный тренинг делает HunyuanImage 3.0 универсальной: она может совмещать задачи понимания текста и генерации изображения в одном шаге.

Статья в тему: Промты для обработки фото в ChatGPT

Как пользоваться HunyuanImage 3.0

1. Через официальный сайт. Перейдите на hunyuan.tencent.com/image и нажмите «Авторизоваться» в правом верхнем углу. Интерфейс пока доступен только на китайском, поэтому удобнее включить автоматический перевод в браузере.

Авторизация через e-mail: введите свою почту, нажмите «Получить код» и используйте его в качестве пароля (обычного пароля здесь нет).

После входа выберите вкладку «Визуальная генерация» — это второй пункт меню справа.

Откроется окно генерации. По умолчанию стоит модель 3.0, но можно проверить настройки.

Введите промт (описание картинки) и получите результат за пару минут. Полученную картинку можно скачать или попросить сгенерировать ещё раз.

2. Через Hugging Face. Модель доступна в каталоге Hugging Face. Можно запускать через transformers или попробовать демо в браузере.

3. Локальный запуск. Код и веса (≈170 ГБ) опубликованы на GitHub. Для работы потребуется минимум 3–4 GPU по 80 ГБ. Есть оптимизация FlashAttention и FlashInfer для ускорения.

Вероятно, модель вскоре появится у партнёров.

В начале сентября Tencent выпустила HunyuanImage 2.1 (17B) — диффузионную модель с рефайнером, которая стала лидером в открытых бенчмарках T2I.

Параллельно компания развивает Hunyuan-LLM и HunyuanVideo. С релизом 3.0 Tencent делает ставку на единую архитектуру, которая объединяет текстовые и визуальные задачи в одном фреймворке. В планах добавить image-to-image, редактирование картинок, многошаговые диалоги с моделью.

Ранее Wan 2.5 добавила генерацию видео по звуку.

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: .

Тэги Нейросети

Источник