Z-Anime | Full Anime Fine-Tune su Z-Image Base
Full fine-tune dell'architettura Z-Image Base di Alibaba โ non un merge LoRA, ma una famiglia di modelli interamente addestrati, pensati per l'anime e costruiti da zero.
Basato su S3-DiT (Single-Stream Diffusion Transformer, 6B parametri), Z-Anime eredita la ricca diversitร , la forte controllabilitร , il pieno supporto ai prompt negativi e un alto potenziale per il fine-tuning di Z-Image Base โ ora adattato per la generazione in stile anime.
Varianti
| Variante | Focus | Ideale per |
|---|---|---|
| Z-Anime Base | Massima qualitร | Render finali, controllo totale |
| Z-Anime Distill-8-Step | Equilibrio velocitร + qualitร | Generazione quotidiana |
| Z-Anime Distill-4-Step | Massima velocitร | Iterazioni rapide, batch |
| Varianti GGUF | Minor consumo di memoria | Workflow con poca VRAM / CPU / AMD |
| Varianti AIO | Comoditร di un singolo file | Configurazione facile su ComfyUI |
| Cartella Diffusers | Pronto per from_pretrained() | Pipeline Python, ulteriore fine-tuning |
Caratteristiche principali
- Full fine-tune su Z-Image Base โ non un merge LoRA
- Ricca estetica anime con forte diversitร stilistica
- Prompt in linguaggio naturale โ funziona meglio con descrizioni, non con elenchi di tag
- Alta diversitร tra personaggi, pose, composizioni e layout
- Pronto per l'addestramento LoRA โ solida base per ulteriore fine-tuning
- Parzialmente compatibile con contenuti NSFW
- Compatibile con 8 GB di VRAM
- Varianti GGUF disponibili
- Varianti AIO disponibili (Base, 4-Step, 8-Step)
Varianti rilasciate
Z-Anime Base
Full fine-tune su Z-Image Base โ BF16 e FP8
Z-Anime Distill-8-Step
BF16 e FP8 โ generazione anime veloce in 8 passaggi, CFG 1.0
Z-Anime Distill-4-Step
BF16 e FP8 โ generazione anime ultraveloce in 4 passaggi, CFG 1.0
Varianti GGUF
- Z-Anime-Base-Q8_0 โ quantizzazione Q8_0 (~6,73 GB)
- Z-Anime-Base-Q4_K_S โ quantizzazione Q4_K_S (~4,2 GB)
Varianti AIO
Checkpoint all-in-one con modello immagine + VAE + Text Encoder integrati in un unico file. Disponibili per Base, Distill-4-Step e Distill-8-Step โ ciascuno in BF16 e FP8.
VAE e Text Encoder
Il VAE (ae.safetensors) e il Text Encoder (qwen_3_4b.safetensors) necessari sono inclusi anche in questo repository per gli utenti che utilizzano le varianti standard (non AIO).
Cartella Diffusers
La cartella completa in formato Diffusers (diffusers/) รจ inclusa โ compatibile direttamente con ZImagePipeline.from_pretrained() per inferenza Python o ulteriore fine-tuning.
Formati delle versioni
BF16 (~12 GB)
Massima precisione. Formato BFloat16 con minimo compromesso sulla qualitร . Ideale per render finali, lavori accurati e addestramento LoRA.
FP8 (~6 GB)
Consigliato per la maggior parte degli utenti. File piรน piccoli, download piรน veloci e qualitร eccellente con solo lievi compromessi rispetto a BF16.
GGUF
Ottimizzato per configurazioni di inferenza leggere, particolarmente utile per poca VRAM, inferenza su CPU o backend alternativi.
AIO
Checkpoint all-in-one con modello immagine + Text Encoder + VAE integrati in un unico file per la configurazione piรน semplice. Disponibile per Base, Distill-4-Step e Distill-8-Step.
Z-Anime Base
Il fondamento della famiglia Z-Anime. Un fine-tuning completo con il massimo livello qualitativo, la piรน ampia gamma creativa e il pieno supporto per i prompt negativi.
Impostazioni Consigliate
steps: 28-50
cfg: 3.0-5.0 # fino a 9.0 possibile
sampler: euler_ancestral
scheduler: beta
negative_prompt: fortemente consigliato
Guida CFG
- 3.0โ5.0 โ punto ottimale per qualitร e creativitร bilanciate
- 5.0โ7.0 โ maggiore aderenza al prompt
- 7.0โ9.0 โ massimo controllo, ma attenzione alla saturazione eccessiva
- Oltre 9.0 โ non consigliato
I prompt negativi hanno pieno effetto su Z-Anime Base.
steps: 28-50
cfg: 3.0-5.0 # up to 9.0 possible
sampler: euler_ancestral
scheduler: beta
negative_prompt: strongly recommended
Z-Anime Distill-8-Step
Derivato da Z-Anime Base, offre risultati anime di alta qualitร in soli 8 passaggi, mantenendo gran parte della qualitร .
Impostazioni Consigliate
steps: 8
cfg: 1.0 # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: effetto limitato
Guida CFG
- Migliore risultato a CFG 1.0
- Piccoli aumenti fino a 1.3โ1.5 sono possibili
- Non superare 1.5 โ potrebbero comparire artefatti
I prompt negativi hanno solo un effetto limitato. Se il tuo workflow include ConditioningZeroOut, preferisci quello invece di un prompt negativo lungo.
steps: 8
cfg: 1.0 # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect
Z-Anime Distill-4-Step
Progettato per il massimo throughput โ prototipazione rapida, generazione batch veloce.
Impostazioni Consigliate
steps: 4
cfg: 1.0 # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: effetto limitato
Suggerimenti per 4-Step
- Mantieni CFG 1.0 per risultati piรน stabili
- Inserisci i dettagli visivi piรน importanti all'inizio del prompt
- Un upscaler opzionale (es. hires fix o SeedVR2) puรฒ recuperare i dettagli fini
steps: 4
cfg: 1.0 # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect
Guida alle Risoluzioni
| Caso d'Uso | Risoluzione |
|---|---|
| Ritratto / character art | 832 ร 1216 |
| Paesaggio / scene / sfondi | 1216 ร 832 |
| Quadrato / uso generale | 1024 ร 1024 |
| Verticale / corpo intero / wallpaper | 768 ร 1344 |
| Cinematografico / scene ampie | 1920 ร 1088 |
| Ritratti dettagliati | 1024 ร 1536 |
Intervallo supportato: circa 512 ร 512 a 2048 ร 2048, qualsiasi rapporto d'aspetto. Tutte le varianti principali sono progettate per funzionare su 8GB di VRAM.
Guida ai Prompt
Il linguaggio naturale funziona meglio โ non elenchi di tag.
โ Buono
Una giovane ragazza anime con lunghi capelli argentati e occhi dorati, che indossa un tradizionale abito da sacerdotessa con haori bianco e hakama rosso. Si trova in una foresta di bambรน illuminata dal sole, petali di ciliegio che cadono dolcemente intorno a lei. Calda luce pomeridiana che filtra tra gli alberi, ombreggiatura dettagliata del tessuto, espressione espressiva, espressione calma e serena, illustrazione anime di alta qualitร con linee fini.
โ Da Evitare
ragazza anime, capelli argentati, sacerdotessa, bambรน, fiore di ciliegio, luce calda
Ritratti di Personaggi
Ritratto anime dettagliato di [personaggio], morbida illuminazione di contorno, occhi espressivi con riflessi dettagliati, ciocche di capelli fini, linee pulite, qualitร da illustrazione anime professionale.
Scene d'Azione
Scena anime dinamica [scena], angolazione drammatica, energia di movimento, linee di velocitร , effetti particellari, composizione cinematografica, ombreggiatura dettagliata, arte anime di alta qualitร .
Sfondi e Paesaggi
[Luogo] anime al [momento della giornata], [illuminazione], [atmosfera], bellissima arte di sfondo, qualitร da wallpaper, ambiente altamente dettagliato.
A young anime girl with long silver hair and golden eyes, wearing a traditional shrine maiden outfit with white haori and red hakama. She stands in a sunlit bamboo forest, cherry blossoms falling softly around her. Warm afternoon light filtering through the trees, detailed fabric shading, expressive face, calm serene expression, high quality anime illustration with fine line work.
anime girl, silver hair, shrine maiden, bamboo, cherry blossom, warm light
Detailed anime portrait of [character], soft rim lighting, expressive eyes with detailed reflections, fine hair strands, clean linework, professional anime illustration quality.
Dynamic anime [scene], dramatic angle, motion energy, speed lines, particle effects, cinematic composition, detailed shading, high quality anime art.
Anime [location] at [time of day], [lighting], [atmosphere], beautiful background art, wallpaper quality, highly detailed environment.
Installazione
Passo 1 โ Scarica la versione desiderata
Scegli tra:
- Modelli Standard / Distill in BF16 o FP8 (+ VAE + Text Encoder)
- Varianti GGUF per inferenza a bassa VRAM / CPU / compatibile AMD (+ VAE + Text Encoder)
- Varianti AIO per comoditร in un unico file (non serve VAE / Text Encoder aggiuntivo)
Passo 2 โ Posiziona i file
Modelli Standard BF16 / FP8
ComfyUI/models/diffusion_models/
โโโ z-anime-base-bf16.safetensors
โโโ z-anime-base-fp8.safetensors
โโโ z-anime-distill-8step-bf16.safetensors
โโโ z-anime-distill-8step-fp8.safetensors
โโโ z-anime-distill-4step-bf16.safetensors
โโโ z-anime-distill-4step-fp8.safetensors
Varianti GGUF
ComfyUI/models/unet/
โโโ z-anime-base-q8_0.gguf
โโโ z-anime-base-q4_k_s.gguf
Text Encoder
Sono inclusi due text encoder โ scegli uno:
ComfyUI/models/clip/
โโโ qwen_3_4b-bf16.safetensors # predefinito (standard Z-Image, BF16)
oppure
โโโ qwen_3_4b-fp8.safetensors # predefinito (standard Z-Image, FP8)
oppure
โโโ qwen_3_4b-engineer-v4-bf16.safetensors # alternativo (Engineer V4, BF16)
oppure
โโโ qwen_3_4b-engineer-v4-fp8.safetensors # alternativo (Engineer V4, FP8)
- Predefinito (
qwen_3_4b-*) โ text encoder Z-Image standard, reimpacchettato come singolo.safetensors(BF16 + FP8). ร quello su cui il modello รจ stato addestrato. - Engineer V4 (
qwen_3_4b-engineer-v4-*) โ fine-tuning completo alternativo del text encoder Z-Image di BennyDaBall, compatibile come sostituto diretto. Spesso produce output piรน vari con lo stesso seed.
VAE
ComfyUI/models/vae/
โโโ ae.safetensors
Varianti AIO
Per le versioni AIO, รจ necessario solo il singolo file checkpoint:
ComfyUI/models/checkpoints/
โโโ z-anime-base-aio-bf16.safetensors
โโโ z-anime-base-aio-fp8.safetensors
โโโ z-anime-distill-8step-aio-bf16.safetensors
โโโ z-anime-distill-8step-aio-fp8.safetensors
โโโ z-anime-distill-4step-aio-bf16.safetensors
โโโ z-anime-distill-4step-aio-fp8.safetensors
Passo 3 โ Carica in ComfyUI
Per le versioni Standard BF16 / FP8
Usa: Load Diffusion Model per il modello, CLIP Loader per il text encoder, VAE Loader per il VAE.
Per le versioni GGUF
Carica il modello GGUF da models/unet/, stesso CLIP e VAE di cui sopra.
Per le versioni AIO
Usa un normale Checkpoint Loader โ non รจ necessario caricare CLIP o VAE aggiuntivi.
ComfyUI/models/diffusion_models/
โโโ z-anime-base-bf16.safetensors
โโโ z-anime-base-fp8.safetensors
โโโ z-anime-distill-8step-bf16.safetensors
โโโ z-anime-distill-8step-fp8.safetensors
โโโ z-anime-distill-4step-bf16.safetensors
โโโ z-anime-distill-4step-fp8.safetensors
ComfyUI/models/unet/
โโโ z-anime-base-q8_0.gguf
โโโ z-anime-base-q4_k_s.gguf
ComfyUI/models/clip/
โโโ qwen_3_4b-bf16.safetensors # default (Z-Image standard, BF16)
or
โโโ qwen_3_4b-fp8.safetensors # default (Z-Image standard, FP8)
or
โโโ qwen_3_4b-engineer-v4-bf16.safetensors # alternative (Engineer V4, BF16)
or
โโโ qwen_3_4b-engineer-v4-fp8.safetensors # alternative (Engineer V4, FP8)
ComfyUI/models/vae/
โโโ ae.safetensors
ComfyUI/models/checkpoints/
โโโ z-anime-base-aio-bf16.safetensors
โโโ z-anime-base-aio-fp8.safetensors
โโโ z-anime-distill-8step-aio-bf16.safetensors
โโโ z-anime-distill-8step-aio-fp8.safetensors
โโโ z-anime-distill-4step-aio-bf16.safetensors
โโโ z-anime-distill-4step-aio-fp8.safetensors
Nodi Personalizzati
rgthree-comfyComfyUI-Lora-ManagerComfyUI-GGUF(solo per varianti GGUF)ComfyUI-SeedVR2_VideoUpscaler(opzionale)
Utilizzo della Cartella Diffusers (Python)
import torch from diffusers import ZImagePipeline pipe = ZImagePipeline.from_pretrained( "SeeSee21/Z-Anime", subfolder="diffusers", torch_dtype=torch.bfloat16, ).to("cuda") image = pipe( prompt="Una giovane ragazza anime con lunghi capelli argentati e occhi dorati, " "abito da sacerdotessa, foresta di bambรน illuminata dal sole, fiori di ciliegio, " "illustrazione anime professionale, linee sottili e precise.", num_inference_steps=40, guidance_scale=4.0, ).images[0] image.save("z-anime-output.png")
Questo formato รจ anche un punto di partenza pulito per ulteriori fine-tuning (LoRA o fine-tuning completo) con framework come OneTrainer, diffusers o kohya-ss.
import torch from diffusers import ZImagePipeline pipe = ZImagePipeline.from_pretrained( "SeeSee21/Z-Anime", subfolder="diffusers", torch_dtype=torch.bfloat16, ).to("cuda") image = pipe( prompt="A young anime girl with long silver hair and golden eyes, " "shrine maiden outfit, sunlit bamboo forest, cherry blossoms, " "professional anime illustration, fine line work.", num_inference_steps=40, guidance_scale=4.0, ).images[0] image.save("z-anime-output.png")
Workflow Ufficiale
Un workflow ComfyUI pronto all'uso (workflows/Z-Anime-Workflow-v1.json) supporta tutte le varianti (Base / Distill-8 / Distill-4, BF16 / FP8 / GGUF / AIO) e include:
- Selettore del modello (caricatori Diffusion / GGUF / AIO)
- Caricatore LoRA opzionale
- Nodi per prompt Positivo + Negativo (con negativo anime predefinito)
- Preimpostazioni di risoluzione
- Generazione + Upscaling 1.5ร opzionale con confronto affiancato
- Guida MarkdownNote integrata con impostazioni per ogni variante
Struttura del Repository
Z-Anime/
โโโ README.md
โโโ config.json
โ
โโโ diffusion_models/
โ โโโ z-anime-base-bf16.safetensors
โ โโโ z-anime-base-fp8.safetensors
โ โโโ z-anime-distill-8step-bf16.safetensors
โ โโโ z-anime-distill-8step-fp8.safetensors
โ โโโ z-anime-distill-4step-bf16.safetensors
โ โโโ z-anime-distill-4step-fp8.safetensors
โ
โโโ gguf/
โ โโโ z-anime-base-q8_0.gguf
โ โโโ z-anime-base-q4_k_s.gguf
โ
โโโ aio/
โ โโโ z-anime-base-aio-bf16.safetensors
โ โโโ z-anime-base-aio-fp8.safetensors
โ โโโ z-anime-distill-8step-aio-bf16.safetensors
โ โโโ z-anime-distill-8step-aio-fp8.safetensors
โ โโโ z-anime-distill-4step-aio-bf16.safetensors
โ โโโ z-anime-distill-4step-aio-fp8.safetensors
โ
โโโ text_encoder/
โ โโโ qwen_3_4b-bf16.safetensors # predefinito
โ โโโ qwen_3_4b-fp8.safetensors # predefinito
โ โโโ qwen_3_4b-engineer-v4-bf16.safetensors # alternativo (BennyDaBall)
โ โโโ qwen_3_4b-engineer-v4-fp8.safetensors # alternativo (BennyDaBall)
โ
โโโ vae/
โ โโโ ae.safetensors
โ
โโโ diffusers/
โ โโโ model_index.json
โ โโโ scheduler/
โ โโโ tokenizer/
โ โโโ text_encoder/
โ โโโ transformer/ (safetensors frammentati + indice)
โ โโโ vae/
โ
โโโ images/
โ โโโ cover.png
โ โโโ workflow-cover.png
โ โโโ workflow-overview.png
โ โโโ 1.png
โ โโโ 2.png
โ โโโ 3.png
โ โโโ 4.png
โ โโโ 5.png
โ โโโ 6.png
โ โโโ 7.png
โ โโโ 8.png
โ โโโ 9.png
โโโ workflows/
โโโ Z-Anime-Workflow-v1.json
Z-Anime/
โโโ README.md
โโโ config.json
โ
โโโ diffusion_models/
โ โโโ z-anime-base-bf16.safetensors
โ โโโ z-anime-base-fp8.safetensors
โ โโโ z-anime-distill-8step-bf16.safetensors
โ โโโ z-anime-distill-8step-fp8.safetensors
โ โโโ z-anime-distill-4step-bf16.safetensors
โ โโโ z-anime-distill-4step-fp8.safetensors
โ
โโโ gguf/
โ โโโ z-anime-base-q8_0.gguf
โ โโโ z-anime-base-q4_k_s.gguf
โ
โโโ aio/
โ โโโ z-anime-base-aio-bf16.safetensors
โ โโโ z-anime-base-aio-fp8.safetensors
โ โโโ z-anime-distill-8step-aio-bf16.safetensors
โ โโโ z-anime-distill-8step-aio-fp8.safetensors
โ โโโ z-anime-distill-4step-aio-bf16.safetensors
โ โโโ z-anime-distill-4step-aio-fp8.safetensors
โ
โโโ text_encoder/
โ โโโ qwen_3_4b-bf16.safetensors # default
โ โโโ qwen_3_4b-fp8.safetensors # default
โ โโโ qwen_3_4b-engineer-v4-bf16.safetensors # alternative (BennyDaBall)
โ โโโ qwen_3_4b-engineer-v4-fp8.safetensors # alternative (BennyDaBall)
โ
โโโ vae/
โ โโโ ae.safetensors
โ
โโโ diffusers/
โ โโโ model_index.json
โ โโโ scheduler/
โ โโโ tokenizer/
โ โโโ text_encoder/
โ โโโ transformer/ (sharded safetensors + index)
โ โโโ vae/
โ
โโโ images/
โ โโโ cover.png
โ โโโ workflow-cover.png
โ โโโ workflow-overview.png
โ โโโ 1.png
โ โโโ 2.png
โ โโโ 3.png
โ โโโ 4.png
โ โโโ 5.png
โ โโโ 6.png
โ โโโ 7.png
โ โโโ 8.png
โ โโโ 9.png
โโโ workflows/
โโโ Z-Anime-Workflow-v1.json
Cronologia delle versioni
v1.0 โ Versione iniziale
- Z-Anime Base rilasciato in BF16 & FP8
- Z-Anime Distill-8-Step rilasciato in BF16 & FP8
- Z-Anime Distill-4-Step rilasciato in BF16 & FP8
- Varianti GGUF aggiunte (Q8_0 ~6.73 GB, Q4_K_S ~4.2 GB)
- Varianti AIO aggiunte โ Base, Distill-4-Step e Distill-8-Step (ciascuna in BF16 & FP8)
- VAE (
ae.safetensors) e Text Encoder (qwen_3_4b.safetensors) inclusi - Ottimizzato per euler_ancestral, euler + beta e per un utilizzo pratico e semplice in tutta la famiglia
Link
- Modello Base: Tongyi-MAI/Z-Image
- Autore: SeeSee21 su Hugging Face
Attribuzione
- Architettura Base: Tongyi Lab (Alibaba) โ Z-Image
- Fine-Tune: SeeSee21
- Licenza: Apache 2.0
- Architettura: S3-DiT (Single-Stream Diffusion Transformer, 6B parametri)
- Engineer V4 Text Encoder: BennyDaBall/Qwen3-4b-Z-Image-Engineer-V4 โ fine-tune completo con training SMART, incluso come text encoder alternativo



