home›Immagini›

Ideogram 4: Il Modello Text-to-Image Open-Weight Che Ridefinisce la Generazione

Scopri le capacità all'avanguardia di Ideogram 4, con prompting JSON strutturato, rendering testo multilingue e prestazioni leader nei benchmark di design.

5 giugno 2026

#Accademico #Addestramento #Generazione Contenuti #LLM #Open Source

Ideogram 4 è il primo modello text-to-image open-weight di Ideogram, addestrato da zero. Offre un'interfaccia di prompting JSON strutturata, rendering testo multilingue di alta qualità, comprensione linguistica profonda, controllo layout/colore e immagini 2K native. Eccelle nei benchmark Design Arena e ContraLabs.

Ideogram 4: Primo modello fondamentale open-weight

Ideogram 4 è il primo modello text-to-image open-weight di Ideogram — un modello fondamentale all’avanguardia, addestrato da zero. Introduce un’interfaccia di prompting JSON strutturato, risoluzione nativa 2K e un controllo senza pari su layout, tavolozza colori e tipografia. Rilasciando pubblicamente i pesi del modello, Ideogram porta le capacità di IA generativa all’avanguardia direttamente a ricercatori e sviluppatori che prima avevano accesso solo ad alternative closed-source. Il modello supporta una controllabilità estrema: coordinate bounding‑box, condizionamento tramite colori esadecimali e disposizioni spaziali precise possono essere specificati in un’unica didascalia JSON. Questo rilascio segna un importante cambiamento verso una generazione di immagini aperta e incentrata sul design.

Architettura: DiT a flusso singolo con un encoder visione‑linguaggio

Ideogram 4 utilizza un Diffusion Transformer (DiT) completamente a flusso singolo. I token di testo e immagine vengono concatenati in un’unica sequenza ed elaborati congiuntamente attraverso 34 strati, consentendo un’interazione cross‑modale profonda in ogni fase. Invece di un encoder solo testuale come CLIP, il modello sfrutta Qwen3‑VL‑8B‑Instruct — un modello visione‑linguaggio completo che fornisce una comprensione visiva più ricca. Gli stati nascosti di 13 strati intermedi vengono concatenati, fornendo al DiT caratteristiche semantiche multi‑scala, dai token superficiali alla struttura compositiva profonda. Uno schema di guida senza classificatore a doppio ramo permette agli utenti di ottimizzare indipendentemente l’aderenza al prompt e la qualità dell’immagine. Il modello da 9,3 miliardi di parametri gestisce nativamente qualsiasi risoluzione da 256 a 2048 (multipli di 16), con rapporti d’aspetto fino a 6:1, il tutto a partire da un unico checkpoint.

Leadership nei benchmark: il miglior modello di immagini open-weight

Valutazioni di terze parti e interne confermano Ideogram 4 come il principale generatore di immagini open-weight. Nella classifica Elo complessiva di Design Arena, si posiziona al primo posto tra i modelli aperti, dietro solo ai sistemi proprietari GPT e Gemini. In un test di tipografia alla cieca condotto da designer professionisti (ContraLabs), ha ottenuto un tasso di vittoria del 47,9% al primo posto, ben davanti al miglior modello successivo (30,0%). Gli stessi designer lo hanno valutato 3,55/5 per lavori reali con i clienti — il punteggio più alto. Su LMArena è tra i migliori 5 laboratori di generazione di immagini in assoluto. Internamente, i punteggi Bradley‑Terry lo collocano al secondo posto, superato solo da GPT Image 2 medium. I benchmark open‑source mostrano che riduce il divario rispetto ai modelli chiusi in termini di ragionamento spaziale, fedeltà degli oggetti, allineamento al prompt e rendering del testo. Con 9,3 miliardi di parametri ridefinisce l’efficienza parametrica, superando modelli da 2 a 9 volte più grandi.

Prompting JSON per la massima controllabilità

Il modello è stato addestrato esclusivamente su didascalie JSON strutturate, in cui ogni didascalia descrive in modo esaustivo tutto il contenuto dell’immagine. Questo produce una supervisione più fondata per ogni coppia di addestramento e rende JSON il formato di prompt più affidabile. Gli utenti possono fornire un array colour_palette di colori esadecimali, coordinate bbox per il posizionamento preciso degli elementi e compositional_deconstruction per descrizioni per singolo oggetto. L’interfaccia supporta inoltre un rendering di testo multilingue di altissimo livello — insegne, loghi, testo multi‑riga e filigrane appaiono con alta fedeltà direttamente dal prompt. Per chi preferisce testo semplice, un sistema “magic prompt” espande automaticamente una descrizione semplice in una didascalia JSON completa prima della generazione.

Installazione e accesso al modello

I pesi del modello sono protetti da accesso controllato su Hugging Face. Per usare Ideogram 4, accetta prima la licenza sulla pagina del modello (ideogram‑4‑nf4 o ideogram‑4‑fp8), quindi autenticati con un token Hugging Face:

hf auth login

Clona il repository GitHub ideogram4 e installa il pacchetto di inferenza:

pip install .

Per installazioni modificabili usa pip install -e .. Lo script run_inference.py gestisce la generazione; richiede una IDEOGRAM_API_KEY per il servizio gratuito magic‑prompt (ottenibile su developer.ideogram.ai). È possibile abilitare il controllo di sicurezza Hive opzionale impostando le chiavi HIVE_TEXT_MODERATION_KEY e HIVE_VISUAL_MODERATION_KEY.

python run_inference.py \
  --prompt "a ginger cat wearing a tiny wizard hat reading a spellbook" \
  --output out.png \
  --quantization "nf4" \
  --magic-prompt-key "$IDEOGRAM_API_KEY"