home›Immagini›

Z-Anime: Modello Anime con Fine-Tuning Completo su Z-Image Base

Una famiglia di modelli completamente addestrati per la generazione di immagini anime, basata sull'architettura S3-DiT con 6 miliardi di parametri.

24 maggio 2026

#Addestramento #Fine Tuning #Generazione Contenuti #Open Source #Python

Z-Anime è un fine-tuning completo dell'architettura Z-Image Base di Alibaba, non un merge LoRA. Offre qualità elevata, diversità stilistica, supporto per prompt in linguaggio naturale e negative prompt, con varianti BF16, FP8, GGUF e AIO. Compatibile con 8GB VRAM e pronto per training LoRA.

Z-Anime | Full Anime Fine-Tune su Z-Image Base

Full fine-tune dell'architettura Z-Image Base di Alibaba — non un merge LoRA, ma una famiglia di modelli interamente addestrati, pensati per l'anime e costruiti da zero.

Basato su S3-DiT (Single-Stream Diffusion Transformer, 6B parametri), Z-Anime eredita la ricca diversità, la forte controllabilità, il pieno supporto ai prompt negativi e un alto potenziale per il fine-tuning di Z-Image Base — ora adattato per la generazione in stile anime.

Varianti

Variante	Focus	Ideale per
Z-Anime Base	Massima qualità	Render finali, controllo totale
Z-Anime Distill-8-Step	Equilibrio velocità + qualità	Generazione quotidiana
Z-Anime Distill-4-Step	Massima velocità	Iterazioni rapide, batch
Varianti GGUF	Minor consumo di memoria	Workflow con poca VRAM / CPU / AMD
Varianti AIO	Comodità di un singolo file	Configurazione facile su ComfyUI
Cartella Diffusers	Pronto per `from_pretrained()`	Pipeline Python, ulteriore fine-tuning

Caratteristiche principali

Full fine-tune su Z-Image Base — non un merge LoRA
Ricca estetica anime con forte diversità stilistica
Prompt in linguaggio naturale — funziona meglio con descrizioni, non con elenchi di tag
Alta diversità tra personaggi, pose, composizioni e layout
Pronto per l'addestramento LoRA — solida base per ulteriore fine-tuning
Parzialmente compatibile con contenuti NSFW
Compatibile con 8 GB di VRAM
Varianti GGUF disponibili
Varianti AIO disponibili (Base, 4-Step, 8-Step)

Varianti rilasciate

Z-Anime Base

Full fine-tune su Z-Image Base — BF16 e FP8

Z-Anime Distill-8-Step

BF16 e FP8 — generazione anime veloce in 8 passaggi, CFG 1.0

Z-Anime Distill-4-Step

BF16 e FP8 — generazione anime ultraveloce in 4 passaggi, CFG 1.0

Varianti GGUF

Z-Anime-Base-Q8_0 — quantizzazione Q8_0 (~6,73 GB)
Z-Anime-Base-Q4_K_S — quantizzazione Q4_K_S (~4,2 GB)

Varianti AIO

Checkpoint all-in-one con modello immagine + VAE + Text Encoder integrati in un unico file. Disponibili per Base, Distill-4-Step e Distill-8-Step — ciascuno in BF16 e FP8.

VAE e Text Encoder

Il VAE (ae.safetensors) e il Text Encoder (qwen_3_4b.safetensors) necessari sono inclusi anche in questo repository per gli utenti che utilizzano le varianti standard (non AIO).

Cartella Diffusers

La cartella completa in formato Diffusers (diffusers/) è inclusa — compatibile direttamente con ZImagePipeline.from_pretrained() per inferenza Python o ulteriore fine-tuning.

Formati delle versioni

BF16 (~12 GB)

Massima precisione. Formato BFloat16 con minimo compromesso sulla qualità. Ideale per render finali, lavori accurati e addestramento LoRA.

FP8 (~6 GB)

Consigliato per la maggior parte degli utenti. File più piccoli, download più veloci e qualità eccellente con solo lievi compromessi rispetto a BF16.

GGUF

Ottimizzato per configurazioni di inferenza leggere, particolarmente utile per poca VRAM, inferenza su CPU o backend alternativi.

AIO

Checkpoint all-in-one con modello immagine + Text Encoder + VAE integrati in un unico file per la configurazione più semplice. Disponibile per Base, Distill-4-Step e Distill-8-Step.

Z-Anime Base

Il fondamento della famiglia Z-Anime. Un fine-tuning completo con il massimo livello qualitativo, la più ampia gamma creativa e il pieno supporto per i prompt negativi.

Impostazioni Consigliate

steps: 28-50
cfg: 3.0-5.0   # fino a 9.0 possibile
sampler: euler_ancestral
scheduler: beta
negative_prompt: fortemente consigliato

Guida CFG

3.0–5.0 → punto ottimale per qualità e creatività bilanciate
5.0–7.0 → maggiore aderenza al prompt
7.0–9.0 → massimo controllo, ma attenzione alla saturazione eccessiva
Oltre 9.0 → non consigliato

I prompt negativi hanno pieno effetto su Z-Anime Base.

steps: 28-50
cfg: 3.0-5.0   # up to 9.0 possible
sampler: euler_ancestral
scheduler: beta
negative_prompt: strongly recommended

Z-Anime Distill-8-Step

Derivato da Z-Anime Base, offre risultati anime di alta qualità in soli 8 passaggi, mantenendo gran parte della qualità.

Impostazioni Consigliate

steps: 8
cfg: 1.0   # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: effetto limitato

Guida CFG

Migliore risultato a CFG 1.0
Piccoli aumenti fino a 1.3–1.5 sono possibili
Non superare 1.5 — potrebbero comparire artefatti

I prompt negativi hanno solo un effetto limitato. Se il tuo workflow include ConditioningZeroOut, preferisci quello invece di un prompt negativo lungo.

steps: 8
cfg: 1.0   # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect

Z-Anime Distill-4-Step

Progettato per il massimo throughput — prototipazione rapida, generazione batch veloce.

Impostazioni Consigliate

steps: 4
cfg: 1.0   # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: effetto limitato

Suggerimenti per 4-Step

Mantieni CFG 1.0 per risultati più stabili
Inserisci i dettagli visivi più importanti all'inizio del prompt
Un upscaler opzionale (es. hires fix o SeedVR2) può recuperare i dettagli fini

steps: 4
cfg: 1.0   # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect

Guida alle Risoluzioni

Caso d'Uso	Risoluzione
Ritratto / character art	832 × 1216
Paesaggio / scene / sfondi	1216 × 832
Quadrato / uso generale	1024 × 1024
Verticale / corpo intero / wallpaper	768 × 1344
Cinematografico / scene ampie	1920 × 1088
Ritratti dettagliati	1024 × 1536

Intervallo supportato: circa 512 × 512 a 2048 × 2048, qualsiasi rapporto d'aspetto. Tutte le varianti principali sono progettate per funzionare su 8GB di VRAM.

Guida ai Prompt

Il linguaggio naturale funziona meglio — non elenchi di tag.

✅ Buono

Una giovane ragazza anime con lunghi capelli argentati e occhi dorati, che indossa un tradizionale abito da sacerdotessa con haori bianco e hakama rosso. Si trova in una foresta di bambù illuminata dal sole, petali di ciliegio che cadono dolcemente intorno a lei. Calda luce pomeridiana che filtra tra gli alberi, ombreggiatura dettagliata del tessuto, espressione espressiva, espressione calma e serena, illustrazione anime di alta qualità con linee fini.

❌ Da Evitare

ragazza anime, capelli argentati, sacerdotessa, bambù, fiore di ciliegio, luce calda

Ritratti di Personaggi

Ritratto anime dettagliato di [personaggio], morbida illuminazione di contorno, occhi espressivi con riflessi dettagliati, ciocche di capelli fini, linee pulite, qualità da illustrazione anime professionale.

Scene d'Azione

Scena anime dinamica [scena], angolazione drammatica, energia di movimento, linee di velocità, effetti particellari, composizione cinematografica, ombreggiatura dettagliata, arte anime di alta qualità.

Sfondi e Paesaggi

[Luogo] anime al [momento della giornata], [illuminazione], [atmosfera], bellissima arte di sfondo, qualità da wallpaper, ambiente altamente dettagliato.

A young anime girl with long silver hair and golden eyes, wearing a traditional shrine maiden outfit with white haori and red hakama. She stands in a sunlit bamboo forest, cherry blossoms falling softly around her. Warm afternoon light filtering through the trees, detailed fabric shading, expressive face, calm serene expression, high quality anime illustration with fine line work.

anime girl, silver hair, shrine maiden, bamboo, cherry blossom, warm light

Detailed anime portrait of [character], soft rim lighting, expressive eyes with detailed reflections, fine hair strands, clean linework, professional anime illustration quality.

Dynamic anime [scene], dramatic angle, motion energy, speed lines, particle effects, cinematic composition, detailed shading, high quality anime art.

Anime [location] at [time of day], [lighting], [atmosphere], beautiful background art, wallpaper quality, highly detailed environment.

Installazione

Passo 1 — Scarica la versione desiderata

Scegli tra:

Modelli Standard / Distill in BF16 o FP8 (+ VAE + Text Encoder)
Varianti GGUF per inferenza a bassa VRAM / CPU / compatibile AMD (+ VAE + Text Encoder)
Varianti AIO per comodità in un unico file (non serve VAE / Text Encoder aggiuntivo)

Passo 2 — Posiziona i file

Modelli Standard BF16 / FP8

ComfyUI/models/diffusion_models/
├── z-anime-base-bf16.safetensors
├── z-anime-base-fp8.safetensors
├── z-anime-distill-8step-bf16.safetensors
├── z-anime-distill-8step-fp8.safetensors
├── z-anime-distill-4step-bf16.safetensors
└── z-anime-distill-4step-fp8.safetensors

Varianti GGUF

ComfyUI/models/unet/
├── z-anime-base-q8_0.gguf
└── z-anime-base-q4_k_s.gguf

Text Encoder

Sono inclusi due text encoder — scegli uno:

ComfyUI/models/clip/
└── qwen_3_4b-bf16.safetensors          # predefinito (standard Z-Image, BF16)
   oppure
└── qwen_3_4b-fp8.safetensors           # predefinito (standard Z-Image, FP8)
   oppure
└── qwen_3_4b-engineer-v4-bf16.safetensors   # alternativo (Engineer V4, BF16)
   oppure
└── qwen_3_4b-engineer-v4-fp8.safetensors    # alternativo (Engineer V4, FP8)

Predefinito (qwen_3_4b-*) — text encoder Z-Image standard, reimpacchettato come singolo .safetensors (BF16 + FP8). È quello su cui il modello è stato addestrato.
Engineer V4 (qwen_3_4b-engineer-v4-*) — fine-tuning completo alternativo del text encoder Z-Image di BennyDaBall, compatibile come sostituto diretto. Spesso produce output più vari con lo stesso seed.

VAE

ComfyUI/models/vae/
└── ae.safetensors

Varianti AIO

Per le versioni AIO, è necessario solo il singolo file checkpoint:

ComfyUI/models/checkpoints/
├── z-anime-base-aio-bf16.safetensors
├── z-anime-base-aio-fp8.safetensors
├── z-anime-distill-8step-aio-bf16.safetensors
├── z-anime-distill-8step-aio-fp8.safetensors
├── z-anime-distill-4step-aio-bf16.safetensors
└── z-anime-distill-4step-aio-fp8.safetensors

Passo 3 — Carica in ComfyUI

Per le versioni Standard BF16 / FP8

Usa: Load Diffusion Model per il modello, CLIP Loader per il text encoder, VAE Loader per il VAE.

Per le versioni GGUF

Carica il modello GGUF da models/unet/, stesso CLIP e VAE di cui sopra.

Per le versioni AIO

Usa un normale Checkpoint Loader — non è necessario caricare CLIP o VAE aggiuntivi.

ComfyUI/models/diffusion_models/
├── z-anime-base-bf16.safetensors
├── z-anime-base-fp8.safetensors
├── z-anime-distill-8step-bf16.safetensors
├── z-anime-distill-8step-fp8.safetensors
├── z-anime-distill-4step-bf16.safetensors
└── z-anime-distill-4step-fp8.safetensors

ComfyUI/models/unet/
├── z-anime-base-q8_0.gguf
└── z-anime-base-q4_k_s.gguf

ComfyUI/models/clip/
└── qwen_3_4b-bf16.safetensors          # default (Z-Image standard, BF16)
   or
└── qwen_3_4b-fp8.safetensors           # default (Z-Image standard, FP8)
   or
└── qwen_3_4b-engineer-v4-bf16.safetensors   # alternative (Engineer V4, BF16)
   or
└── qwen_3_4b-engineer-v4-fp8.safetensors    # alternative (Engineer V4, FP8)

ComfyUI/models/vae/
└── ae.safetensors

ComfyUI/models/checkpoints/
├── z-anime-base-aio-bf16.safetensors
├── z-anime-base-aio-fp8.safetensors
├── z-anime-distill-8step-aio-bf16.safetensors
├── z-anime-distill-8step-aio-fp8.safetensors
├── z-anime-distill-4step-aio-bf16.safetensors
└── z-anime-distill-4step-aio-fp8.safetensors

Nodi Personalizzati

rgthree-comfy
ComfyUI-Lora-Manager
ComfyUI-GGUF (solo per varianti GGUF)
ComfyUI-SeedVR2_VideoUpscaler (opzionale)

Utilizzo della Cartella Diffusers (Python)

import torch
from diffusers import ZImagePipeline

pipe = ZImagePipeline.from_pretrained(
    "SeeSee21/Z-Anime",
    subfolder="diffusers",
    torch_dtype=torch.bfloat16,
).to("cuda")

image = pipe(
    prompt="Una giovane ragazza anime con lunghi capelli argentati e occhi dorati, "
           "abito da sacerdotessa, foresta di bambù illuminata dal sole, fiori di ciliegio, "
           "illustrazione anime professionale, linee sottili e precise.",
    num_inference_steps=40,
    guidance_scale=4.0,
).images[0]

image.save("z-anime-output.png")

Questo formato è anche un punto di partenza pulito per ulteriori fine-tuning (LoRA o fine-tuning completo) con framework come OneTrainer, diffusers o kohya-ss.

import torch
from diffusers import ZImagePipeline

pipe = ZImagePipeline.from_pretrained(
    "SeeSee21/Z-Anime",
    subfolder="diffusers",
    torch_dtype=torch.bfloat16,
).to("cuda")

image = pipe(
    prompt="A young anime girl with long silver hair and golden eyes, "
           "shrine maiden outfit, sunlit bamboo forest, cherry blossoms, "
           "professional anime illustration, fine line work.",
    num_inference_steps=40,
    guidance_scale=4.0,
).images[0]

image.save("z-anime-output.png")

Workflow Ufficiale

Un workflow ComfyUI pronto all'uso (workflows/Z-Anime-Workflow-v1.json) supporta tutte le varianti (Base / Distill-8 / Distill-4, BF16 / FP8 / GGUF / AIO) e include:

Selettore del modello (caricatori Diffusion / GGUF / AIO)
Caricatore LoRA opzionale
Nodi per prompt Positivo + Negativo (con negativo anime predefinito)
Preimpostazioni di risoluzione
Generazione + Upscaling 1.5× opzionale con confronto affiancato
Guida MarkdownNote integrata con impostazioni per ogni variante

Struttura del Repository

Z-Anime/
├── README.md
├── config.json
│
├── diffusion_models/
│   ├── z-anime-base-bf16.safetensors
│   ├── z-anime-base-fp8.safetensors
│   ├── z-anime-distill-8step-bf16.safetensors
│   ├── z-anime-distill-8step-fp8.safetensors
│   ├── z-anime-distill-4step-bf16.safetensors
│   └── z-anime-distill-4step-fp8.safetensors
│
├── gguf/
│   ├── z-anime-base-q8_0.gguf
│   └── z-anime-base-q4_k_s.gguf
│
├── aio/
│   ├── z-anime-base-aio-bf16.safetensors
│   ├── z-anime-base-aio-fp8.safetensors
│   ├── z-anime-distill-8step-aio-bf16.safetensors
│   ├── z-anime-distill-8step-aio-fp8.safetensors
│   ├── z-anime-distill-4step-aio-bf16.safetensors
│   └── z-anime-distill-4step-aio-fp8.safetensors
│
├── text_encoder/
│   ├── qwen_3_4b-bf16.safetensors                  # predefinito
│   ├── qwen_3_4b-fp8.safetensors                   # predefinito
│   ├── qwen_3_4b-engineer-v4-bf16.safetensors      # alternativo (BennyDaBall)
│   └── qwen_3_4b-engineer-v4-fp8.safetensors       # alternativo (BennyDaBall)
│
├── vae/
│   └── ae.safetensors
│
├── diffusers/
│   ├── model_index.json
│   ├── scheduler/
│   ├── tokenizer/
│   ├── text_encoder/
│   ├── transformer/   (safetensors frammentati + indice)
│   └── vae/
│
├── images/
│   ├── cover.png
│   ├── workflow-cover.png
│   ├── workflow-overview.png
│   ├── 1.png
│   ├── 2.png
│   ├── 3.png
│   ├── 4.png
│   ├── 5.png
│   ├── 6.png
│   ├── 7.png
│   ├── 8.png
│   └── 9.png
└── workflows/
    └── Z-Anime-Workflow-v1.json

Z-Anime/
├── README.md
├── config.json
│
├── diffusion_models/
│   ├── z-anime-base-bf16.safetensors
│   ├── z-anime-base-fp8.safetensors
│   ├── z-anime-distill-8step-bf16.safetensors
│   ├── z-anime-distill-8step-fp8.safetensors
│   ├── z-anime-distill-4step-bf16.safetensors
│   └── z-anime-distill-4step-fp8.safetensors
│
├── gguf/
│   ├── z-anime-base-q8_0.gguf
│   └── z-anime-base-q4_k_s.gguf
│
├── aio/
│   ├── z-anime-base-aio-bf16.safetensors
│   ├── z-anime-base-aio-fp8.safetensors
│   ├── z-anime-distill-8step-aio-bf16.safetensors
│   ├── z-anime-distill-8step-aio-fp8.safetensors
│   ├── z-anime-distill-4step-aio-bf16.safetensors
│   └── z-anime-distill-4step-aio-fp8.safetensors
│
├── text_encoder/
│   ├── qwen_3_4b-bf16.safetensors                  # default
│   ├── qwen_3_4b-fp8.safetensors                   # default
│   ├── qwen_3_4b-engineer-v4-bf16.safetensors      # alternative (BennyDaBall)
│   └── qwen_3_4b-engineer-v4-fp8.safetensors       # alternative (BennyDaBall)
│
├── vae/
│   └── ae.safetensors
│
├── diffusers/
│   ├── model_index.json
│   ├── scheduler/
│   ├── tokenizer/
│   ├── text_encoder/
│   ├── transformer/   (sharded safetensors + index)
│   └── vae/
│
├── images/
│   ├── cover.png
│   ├── workflow-cover.png
│   ├── workflow-overview.png
│   ├── 1.png
│   ├── 2.png
│   ├── 3.png
│   ├── 4.png
│   ├── 5.png
│   ├── 6.png
│   ├── 7.png
│   ├── 8.png
│   └── 9.png
└── workflows/
    └── Z-Anime-Workflow-v1.json

Cronologia delle versioni

v1.0 — Versione iniziale

Z-Anime Base rilasciato in BF16 & FP8
Z-Anime Distill-8-Step rilasciato in BF16 & FP8
Z-Anime Distill-4-Step rilasciato in BF16 & FP8
Varianti GGUF aggiunte (Q8_0 ~6.73 GB, Q4_K_S ~4.2 GB)
Varianti AIO aggiunte — Base, Distill-4-Step e Distill-8-Step (ciascuna in BF16 & FP8)
VAE (ae.safetensors) e Text Encoder (qwen_3_4b.safetensors) inclusi
Ottimizzato per euler_ancestral, euler + beta e per un utilizzo pratico e semplice in tutta la famiglia

Link

Modello Base: Tongyi-MAI/Z-Image
Autore: SeeSee21 su Hugging Face

Attribuzione

Architettura Base: Tongyi Lab (Alibaba) — Z-Image
Fine-Tune: SeeSee21
Licenza: Apache 2.0
Architettura: S3-DiT (Single-Stream Diffusion Transformer, 6B parametri)
Engineer V4 Text Encoder: BennyDaBall/Qwen3-4b-Z-Image-Engineer-V4 — fine-tune completo con training SMART, incluso come text encoder alternativo

Project page

Z-Anime | Full Anime Fine-Tune su Z-Image Base

Varianti

Caratteristiche principali

Varianti rilasciate

Z-Anime Base

Z-Anime Distill-8-Step

Z-Anime Distill-4-Step

Varianti GGUF

Varianti AIO

VAE e Text Encoder

Cartella Diffusers

Formati delle versioni

BF16 (~12 GB)

FP8 (~6 GB)

GGUF

AIO

Z-Anime Base

Impostazioni Consigliate

Guida CFG

Z-Anime Distill-8-Step

Impostazioni Consigliate

Guida CFG

Z-Anime Distill-4-Step

Impostazioni Consigliate

Suggerimenti per 4-Step

Guida alle Risoluzioni

Guida ai Prompt

✅ Buono

❌ Da Evitare

Ritratti di Personaggi

Scene d'Azione

Sfondi e Paesaggi

Installazione

Passo 1 — Scarica la versione desiderata

Passo 2 — Posiziona i file

Modelli Standard BF16 / FP8

Varianti GGUF

Text Encoder

VAE

Varianti AIO

Passo 3 — Carica in ComfyUI

Per le versioni Standard BF16 / FP8

Per le versioni GGUF

Per le versioni AIO

Nodi Personalizzati

Utilizzo della Cartella Diffusers (Python)

Workflow Ufficiale

Struttura del Repository

Cronologia delle versioni

v1.0 — Versione iniziale

Link

Attribuzione

Juggernaut Z: un fine-tuning cinematografico per Z-Image

Juggernaut Z: un fine-tuning cinematografico per Z-Image

Ideogram 4: Il Modello Text-to-Image Open-Weight Che Ridefinisce la Generazione

Ideogram 4: Il Modello Text-to-Image Open-Weight Che Ridefinisce la Generazione

Come Bonsai Image Ternary 4B rivoluziona la diffusione testo-immagine