Tailored news hub
homeImágenes

Ideogram 4: El Modelo de Texto a Imagen de Código Abierto Líder

Descubre cómo Ideogram 4 redefine la generación de imágenes con su nueva interfaz JSON, renderizado multilingüe y controles avanzados.

Ideogram 4: El Modelo de Texto a Imagen de Código Abierto Líder
#Académico#Código Abierto#Entrenamiento#Generación de Contenido#LLM

Ideogram 4 es el primer modelo de texto a imagen de código abierto de Ideogram, entrenado desde cero. Ofrece renderizado de texto multilingüe, comprensión profunda del lenguaje, control de diseño y resolución 2k, superando a otros modelos en benchmarks como Design Arena y ContraLabs.

Ideogram 4: Primer modelo base de pesos abiertos

Ideogram 4 es el primer modelo de texto a imagen de pesos abiertos de Ideogram — un modelo base de última generación entrenado desde cero. Estrena una interfaz de prompting JSON estructurado, resolución 2K nativa y un control líder en su clase sobre composición, paleta de colores y tipografía. Al liberar los pesos del modelo públicamente, Ideogram acerca capacidades punteras de IA generativa directamente a investigadores y desarrolladores que antes solo tenían acceso a alternativas de código cerrado. El modelo ofrece una controlabilidad extrema: coordenadas de cuadros delimitadores, condicionamiento por colores hexadecimales y disposiciones espaciales precisas pueden especificarse en un único pie de foto JSON. Este lanzamiento marca un cambio significativo hacia la generación de imágenes abierta y centrada en el diseño.

Arquitectura: DiT de flujo único con un codificador de visión-lenguaje

Ideogram 4 utiliza un Diffusion Transformer (DiT) completamente de flujo único. Los tokens de texto e imagen se concatenan en una sola secuencia y se procesan conjuntamente a través de 34 capas, permitiendo una interacción intermodal profunda en cada etapa. En lugar de un codificador solo de texto como CLIP, el modelo aprovecha Qwen3‑VL‑8B‑Instruct — un modelo completo de visión-lenguaje que proporciona una comprensión visual más rica. Los estados ocultos de 13 capas intermedias se concatenan, proporcionando al DiT características semánticas multiescala, desde tokens superficiales hasta una estructura compositiva profunda. Un esquema de guía libre de clasificador de doble rama permite a los usuarios refinar de forma independiente la adherencia al prompt y la calidad de imagen. El modelo de 9.3B de parámetros maneja de forma nativa cualquier resolución de 256 a 2048 (múltiplos de 16), con relaciones de aspecto de hasta 6:1, todo desde un único punto de control.

Liderazgo en benchmarks: El mejor modelo de imagen de pesos abiertos

Evaluaciones internas y de terceros confirman a Ideogram 4 como el generador de imágenes de pesos abiertos líder. En la tabla de clasificación Elo general de Design Arena, ocupa el primer puesto entre los modelos abiertos, solo por detrás de los sistemas propietarios GPT y Gemini. En una prueba tipográfica ciega realizada por diseñadores profesionales (ContraLabs), logró una tasa de victoria en primer lugar del 47.9%, muy por delante del siguiente mejor modelo (30.0%). Los mismos diseñadores lo calificaron con 3.55/5 para trabajo real con clientes — la puntuación más alta. En LMArena, es uno de los 5 mejores laboratorios de generación de imágenes en general. Internamente, las puntuaciones Bradley‑Terry lo sitúan solo por detrás de GPT Image 2 medium. Los benchmarks de código abierto muestran que reduce la brecha con los modelos cerrados en razonamiento espacial, fidelidad de objetos, alineación con el prompt y renderizado de texto. Con 9.3B de parámetros, redefine la eficiencia de parámetros, superando a modelos que son de 2 a 9 veces más grandes.

Prompting JSON para una controlabilidad extrema

El modelo fue entrenado exclusivamente con pies de foto JSON estructurados, donde cada pie de foto describe exhaustivamente todo el contenido de la imagen. Esto produce una supervisión más fundamentada por par de entrenamiento y convierte a JSON en el formato de prompt más fiable. Los usuarios pueden proporcionar un array colour_palette de colores hexadecimales, coordenadas bbox para la colocación precisa de elementos y compositional_deconstruction para descripciones por objeto. La interfaz también ofrece un renderizado de texto multilingüe líder en su clase: letreros, logotipos, texto multilínea y marcas de agua aparecen con alta fidelidad directamente desde el prompt. Para quienes prefieren texto plano, un sistema de «prompt mágico» expande automáticamente una descripción simple a un pie de foto JSON completo antes de la generación.

Instalación y acceso al modelo

Los pesos del modelo están restringidos en Hugging Face. Para usar Ideogram 4, primero acepte la licencia en la página del modelo (ideogram‑4‑nf4 o ideogram‑4‑fp8), luego autentíquese con un token de Hugging Face:

hf auth login

Clone el repositorio de GitHub ideogram4 e instale el paquete de inferencia:

pip install .

Para instalaciones editables use pip install -e .. El script run_inference.py gestiona la generación; requiere una IDEOGRAM_API_KEY para el servicio gratuito de prompt mágico (obténgala en developer.ideogram.ai). El filtro de seguridad opcional Hive puede habilitarse configurando HIVE_TEXT_MODERATION_KEY y HIVE_VISUAL_MODERATION_KEY.

python run_inference.py \
  --prompt "a ginger cat wearing a tiny wizard hat reading a spellbook" \
  --output out.png \
  --quantization "nf4" \
  --magic-prompt-key "$IDEOGRAM_API_KEY"
Artículos Relacionados