Z-Anime | Fine-Tuning completo de anime sobre Z-Image Base
Fine-tuning completo de la arquitectura Z-Image Base de Alibaba — no es una fusión LoRA, sino una familia de modelos centrada en anime, completamente entrenada desde cero.
Construida sobre el S3-DiT (Single-Stream Diffusion Transformer, 6B parámetros), Z-Anime hereda la rica diversidad, la fuerte controlabilidad, el soporte completo de indicaciones negativas y un alto techo para fine-tuning de Z-Image Base — ahora adaptada para la generación de estilo anime.
Variantes
| Variante | Enfoque | Mejor para |
|---|---|---|
| Z-Anime Base | Máxima calidad | Renderizados finales, control total |
| Z-Anime Distill-8-Step | Equilibrio velocidad + calidad | Generación diaria |
| Z-Anime Distill-4-Step | Máxima velocidad | Iteración rápida, lotes |
| Variantes GGUF | Menor uso de memoria | Flujos de trabajo con poca VRAM / CPU / AMD |
| Variantes AIO | Comodidad de un solo archivo | Configuración fácil en ComfyUI |
| Carpeta Diffusers | Listo para from_pretrained() | Pipelines en Python, fine-tuning adicional |
Características principales
- Fine-tuning completo sobre Z-Image Base — no una fusión LoRA
- Rica estética anime con gran diversidad de estilos
- Indicaciones en lenguaje natural: funciona mejor con descripciones detalladas, no con listas de etiquetas
- Alta diversidad en personajes, poses, composiciones y diseños
- Listo para entrenamiento LoRA — base sólida para fine-tuning adicional
- Parcialmente compatible con NSFW
- Compatible con 8GB de VRAM
- Variantes GGUF disponibles
- Variantes AIO disponibles (Base, 4-Step, 8-Step)
Variantes publicadas
Z-Anime Base
Fine-tuning completo sobre Z-Image Base — BF16 y FP8
Z-Anime Distill-8-Step
BF16 y FP8 — generación rápida de anime en 8 pasos, CFG 1.0
Z-Anime Distill-4-Step
BF16 y FP8 — generación ultrarrápida de anime en 4 pasos, CFG 1.0
Variantes GGUF
- Z-Anime-Base-Q8_0 — cuantización Q8_0 (~6,73 GB)
- Z-Anime-Base-Q4_K_S — cuantización Q4_K_S (~4,2 GB)
Variantes AIO
Checkpoints todo en uno con modelo de imagen + VAE + Text Encoder integrados en un solo archivo. Disponibles para Base, Distill-4-Step y Distill-8-Step — cada uno en BF16 y FP8.
VAE y Text Encoder
El VAE (ae.safetensors) y Text Encoder (qwen_3_4b.safetensors) necesarios también están incluidos en este repositorio para usuarios que ejecutan las variantes estándar (no AIO).
Carpeta Diffusers
La carpeta completa en formato Diffusers (diffusers/) está incluida — compatible directamente con ZImagePipeline.from_pretrained() para inferencia en Python o fine-tuning adicional.
Formatos de versión
BF16 (~12GB)
Precisión máxima. Formato BFloat16 con compromiso mínimo de calidad. Ideal para renderizados finales, trabajo cuidadoso y entrenamiento LoRA.
FP8 (~6GB)
Recomendado para la mayoría de usuarios. Archivos más pequeños, descargas más rápidas y excelente calidad con solo pequeñas compensaciones en comparación con BF16.
GGUF
Optimizado para configuraciones de inferencia ligeras, especialmente útil para poca VRAM, inferencia en CPU o backends alternativos.
AIO
Checkpoints todo en uno con modelo de imagen + Text Encoder + VAE integrados en un solo archivo para la configuración más sencilla. Disponible para Base, Distill-4-Step y Distill-8-Step.
Z-Anime Base
La base de la familia Z-Anime. Un fine-tune completo con el techo de calidad más alto, el rango creativo más amplio y soporte completo para negative prompts.
Configuración Recomendada
steps: 28-50
cfg: 3.0-5.0 # up to 9.0 possible
sampler: euler_ancestral
scheduler: beta
negative_prompt: strongly recommended
Guía de CFG
- 3.0–5.0 → punto óptimo para calidad y creatividad equilibradas
- 5.0–7.0 → mayor adherencia al prompt
- 7.0–9.0 → control máximo, pero cuidado con la sobreexposición
- Por encima de 9.0 → no recomendado
Los negative prompts tienen efecto completo en Z-Anime Base.
steps: 28-50
cfg: 3.0-5.0 # up to 9.0 possible
sampler: euler_ancestral
scheduler: beta
negative_prompt: strongly recommended
Z-Anime Distill-8-Step
Destilado de Z-Anime Base, ofrece resultados anime sólidos en solo 8 pasos mientras conserva la mayor parte de la calidad.
Configuración Recomendada
steps: 8
cfg: 1.0 # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect
Guía de CFG
- Mejor en CFG 1.0
- Pequeños aumentos a 1.3–1.5 son posibles
- No vayas por encima de 1.5 — pueden aparecer artefactos
Los negative prompts tienen solo efecto limitado. Si tu flujo de trabajo incluye ConditioningZeroOut, prefiere eso en lugar de un negative prompt grande.
steps: 8
cfg: 1.0 # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect
Z-Anime Distill-4-Step
Construido para máximo rendimiento — prototipado rápido, generación por lotes veloz.
Configuración Recomendada
steps: 4
cfg: 1.0 # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect
Consejos para 4 pasos
- Mantente en CFG 1.0 para obtener los resultados más estables
- Coloca los detalles visuales más importantes al principio del prompt
- Un upscaler opcional (por ejemplo, hires fix o SeedVR2) puede recuperar detalles finos
steps: 4
cfg: 1.0 # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect
Guía de Resoluciones
| Caso de uso | Resolución |
|---|---|
| Retrato / arte de personaje | 832 × 1216 |
| Paisaje / escenas / fondos | 1216 × 832 |
| Cuadrado / uso general | 1024 × 1024 |
| Vertical / cuerpo completo / fondo de pantalla | 768 × 1344 |
| Cinematográfico / escenas amplias | 1920 × 1088 |
| Retratos detallados | 1024 × 1536 |
Rango soportado: aproximadamente 512 × 512 a 2048 × 2048, cualquier proporción. Todas las variantes principales están diseñadas para funcionar en 8GB de VRAM.
Guía de Prompts
El lenguaje natural funciona mejor — no las listas de etiquetas.
✅ Bueno
A young anime girl with long silver hair and golden eyes, wearing a traditional shrine maiden outfit with white haori and red hakama. She stands in a sunlit bamboo forest, cherry blossoms falling softly around her. Warm afternoon light filtering through the trees, detailed fabric shading, expressive face, calm serene expression, high quality anime illustration with fine line work.
❌ Evitar
anime girl, silver hair, shrine maiden, bamboo, cherry blossom, warm light
Retratos de Personajes
Detailed anime portrait of [character], soft rim lighting, expressive eyes with detailed reflections, fine hair strands, clean linework, professional anime illustration quality.
Escenas de Acción
Dynamic anime [scene], dramatic angle, motion energy, speed lines, particle effects, cinematic composition, detailed shading, high quality anime art.
Fondos y Paisajes
Anime [location] at [time of day], [lighting], [atmosphere], beautiful background art, wallpaper quality, highly detailed environment.
A young anime girl with long silver hair and golden eyes, wearing a traditional shrine maiden outfit with white haori and red hakama. She stands in a sunlit bamboo forest, cherry blossoms falling softly around her. Warm afternoon light filtering through the trees, detailed fabric shading, expressive face, calm serene expression, high quality anime illustration with fine line work.
anime girl, silver hair, shrine maiden, bamboo, cherry blossom, warm light
Detailed anime portrait of [character], soft rim lighting, expressive eyes with detailed reflections, fine hair strands, clean linework, professional anime illustration quality.
Dynamic anime [scene], dramatic angle, motion energy, speed lines, particle effects, cinematic composition, detailed shading, high quality anime art.
Anime [location] at [time of day], [lighting], [atmosphere], beautiful background art, wallpaper quality, highly detailed environment.
Instalación
Paso 1 — Descarga la versión que desees
Elige entre:
- Modelos estándar / destilados en BF16 o FP8 (+ VAE + Text Encoder)
- Variantes GGUF para inferencia con poca VRAM, CPU o compatible con AMD (+ VAE + Text Encoder)
- Variantes AIO para comodidad en un solo archivo (no necesitas VAE / Text Encoder adicional)
Paso 2 — Coloca los archivos
Modelos estándar BF16 / FP8
ComfyUI/models/diffusion_models/
├── z-anime-base-bf16.safetensors
├── z-anime-base-fp8.safetensors
├── z-anime-distill-8step-bf16.safetensors
├── z-anime-distill-8step-fp8.safetensors
├── z-anime-distill-4step-bf16.safetensors
└── z-anime-distill-4step-fp8.safetensors
Variantes GGUF
ComfyUI/models/unet/
├── z-anime-base-q8_0.gguf
└── z-anime-base-q4_k_s.gguf
Text Encoder
Se incluyen dos text encoders: elige uno:
ComfyUI/models/clip/
└── qwen_3_4b-bf16.safetensors # predeterminado (estándar Z-Image, BF16)
o
└── qwen_3_4b-fp8.safetensors # predeterminado (estándar Z-Image, FP8)
o
└── qwen_3_4b-engineer-v4-bf16.safetensors # alternativa (Engineer V4, BF16)
o
└── qwen_3_4b-engineer-v4-fp8.safetensors # alternativa (Engineer V4, FP8)
- Predeterminado (
qwen_3_4b-*) — text encoder estándar de Z-Image, reempaquetado como un único.safetensors(BF16 + FP8). Este es con el que se entrenó el modelo. - Engineer V4 (
qwen_3_4b-engineer-v4-*) — ajuste fino completo alternativo del text encoder de Z-Image por BennyDaBall, compatible como reemplazo directo. A menudo produce resultados más variados con la misma semilla.
VAE
ComfyUI/models/vae/
└── ae.safetensors
Variantes AIO
Para las versiones AIO, solo se necesita el archivo de checkpoint único:
ComfyUI/models/checkpoints/
├── z-anime-base-aio-bf16.safetensors
├── z-anime-base-aio-fp8.safetensors
├── z-anime-distill-8step-aio-bf16.safetensors
├── z-anime-distill-8step-aio-fp8.safetensors
├── z-anime-distill-4step-aio-bf16.safetensors
└── z-anime-distill-4step-aio-fp8.safetensors
Paso 3 — Cargar en ComfyUI
Para las versiones estándar BF16 / FP8
Usa: Load Diffusion Model para el modelo, CLIP Loader para el text encoder, VAE Loader para el VAE.
Para las versiones GGUF
Carga el modelo GGUF desde models/unet/, mismo CLIP y VAE que arriba.
Para las versiones AIO
Usa un Checkpoint Loader estándar — no se requiere cargar CLIP ni VAE adicionales.
ComfyUI/models/diffusion_models/
├── z-anime-base-bf16.safetensors
├── z-anime-base-fp8.safetensors
├── z-anime-distill-8step-bf16.safetensors
├── z-anime-distill-8step-fp8.safetensors
├── z-anime-distill-4step-bf16.safetensors
└── z-anime-distill-4step-fp8.safetensors
ComfyUI/models/unet/
├── z-anime-base-q8_0.gguf
└── z-anime-base-q4_k_s.gguf
ComfyUI/models/clip/
└── qwen_3_4b-bf16.safetensors # default (Z-Image standard, BF16)
or
└── qwen_3_4b-fp8.safetensors # default (Z-Image standard, FP8)
or
└── qwen_3_4b-engineer-v4-bf16.safetensors # alternative (Engineer V4, BF16)
or
└── qwen_3_4b-engineer-v4-fp8.safetensors # alternative (Engineer V4, FP8)
ComfyUI/models/vae/
└── ae.safetensors
ComfyUI/models/checkpoints/
├── z-anime-base-aio-bf16.safetensors
├── z-anime-base-aio-fp8.safetensors
├── z-anime-distill-8step-aio-bf16.safetensors
├── z-anime-distill-8step-aio-fp8.safetensors
├── z-anime-distill-4step-aio-bf16.safetensors
└── z-anime-distill-4step-aio-fp8.safetensors
Nodos personalizados
rgthree-comfyComfyUI-Lora-ManagerComfyUI-GGUF(solo para variantes GGUF)ComfyUI-SeedVR2_VideoUpscaler(opcional)
Uso de la carpeta Diffusers (Python)
import torch from diffusers import ZImagePipeline pipe = ZImagePipeline.from_pretrained( "SeeSee21/Z-Anime", subfolder="diffusers", torch_dtype=torch.bfloat16, ).to("cuda") image = pipe( prompt="Una joven chica anime de largo cabello plateado y ojos dorados, " "atuendo de doncella de santuario, bosque de bambú bañado por el sol, flores de cerezo, " "ilustración profesional de anime, líneas finas.", num_inference_steps=40, guidance_scale=4.0, ).images[0] image.save("z-anime-output.png")
Este formato también es un punto de partida limpio para realizar ajustes finos (LoRA o ajuste fino completo) con frameworks como OneTrainer, diffusers o kohya-ss.
import torch from diffusers import ZImagePipeline pipe = ZImagePipeline.from_pretrained( "SeeSee21/Z-Anime", subfolder="diffusers", torch_dtype=torch.bfloat16, ).to("cuda") image = pipe( prompt="A young anime girl with long silver hair and golden eyes, " "shrine maiden outfit, sunlit bamboo forest, cherry blossoms, " "professional anime illustration, fine line work.", num_inference_steps=40, guidance_scale=4.0, ).images[0] image.save("z-anime-output.png")
Flujo de trabajo oficial
Un flujo de trabajo listo para usar de ComfyUI (workflows/Z-Anime-Workflow-v1.json) es compatible con todas las variantes (Base / Distill-8 / Distill-4, BF16 / FP8 / GGUF / AIO) e incluye:
- Cambio de modelo (cargadores Diffusion / GGUF / AIO)
- Cargador de LoRA opcional
- Nodos de prompt positivo + negativo (con un negativo predeterminado para anime)
- Preajustes de resolución
- Generación + Escalado opcional 1.5× con comparación lado a lado
- Guía MarkdownNote integrada con configuraciones por variante
Estructura del repositorio
Z-Anime/
├── README.md
├── config.json
│
├── diffusion_models/
│ ├── z-anime-base-bf16.safetensors
│ ├── z-anime-base-fp8.safetensors
│ ├── z-anime-distill-8step-bf16.safetensors
│ ├── z-anime-distill-8step-fp8.safetensors
│ ├── z-anime-distill-4step-bf16.safetensors
│ └── z-anime-distill-4step-fp8.safetensors
│
├── gguf/
│ ├── z-anime-base-q8_0.gguf
│ └── z-anime-base-q4_k_s.gguf
│
├── aio/
│ ├── z-anime-base-aio-bf16.safetensors
│ ├── z-anime-base-aio-fp8.safetensors
│ ├── z-anime-distill-8step-aio-bf16.safetensors
│ ├── z-anime-distill-8step-aio-fp8.safetensors
│ ├── z-anime-distill-4step-aio-bf16.safetensors
│ └── z-anime-distill-4step-aio-fp8.safetensors
│
├── text_encoder/
│ ├── qwen_3_4b-bf16.safetensors # predeterminado
│ ├── qwen_3_4b-fp8.safetensors # predeterminado
│ ├── qwen_3_4b-engineer-v4-bf16.safetensors # alternativa (BennyDaBall)
│ └── qwen_3_4b-engineer-v4-fp8.safetensors # alternativa (BennyDaBall)
│
├── vae/
│ └── ae.safetensors
│
├── diffusers/
│ ├── model_index.json
│ ├── scheduler/
│ ├── tokenizer/
│ ├── text_encoder/
│ ├── transformer/ (safetensors fragmentados + índice)
│ └── vae/
│
├── images/
│ ├── cover.png
│ ├── workflow-cover.png
│ ├── workflow-overview.png
│ ├── 1.png
│ ├── 2.png
│ ├── 3.png
│ ├── 4.png
│ ├── 5.png
│ ├── 6.png
│ ├── 7.png
│ ├── 8.png
│ └── 9.png
└── workflows/
└── Z-Anime-Workflow-v1.json
Z-Anime/
├── README.md
├── config.json
│
├── diffusion_models/
│ ├── z-anime-base-bf16.safetensors
│ ├── z-anime-base-fp8.safetensors
│ ├── z-anime-distill-8step-bf16.safetensors
│ ├── z-anime-distill-8step-fp8.safetensors
│ ├── z-anime-distill-4step-bf16.safetensors
│ └── z-anime-distill-4step-fp8.safetensors
│
├── gguf/
│ ├── z-anime-base-q8_0.gguf
│ └── z-anime-base-q4_k_s.gguf
│
├── aio/
│ ├── z-anime-base-aio-bf16.safetensors
│ ├── z-anime-base-aio-fp8.safetensors
│ ├── z-anime-distill-8step-aio-bf16.safetensors
│ ├── z-anime-distill-8step-aio-fp8.safetensors
│ ├── z-anime-distill-4step-aio-bf16.safetensors
│ └── z-anime-distill-4step-aio-fp8.safetensors
│
├── text_encoder/
│ ├── qwen_3_4b-bf16.safetensors # default
│ ├── qwen_3_4b-fp8.safetensors # default
│ ├── qwen_3_4b-engineer-v4-bf16.safetensors # alternative (BennyDaBall)
│ └── qwen_3_4b-engineer-v4-fp8.safetensors # alternative (BennyDaBall)
│
├── vae/
│ └── ae.safetensors
│
├── diffusers/
│ ├── model_index.json
│ ├── scheduler/
│ ├── tokenizer/
│ ├── text_encoder/
│ ├── transformer/ (sharded safetensors + index)
│ └── vae/
│
├── images/
│ ├── cover.png
│ ├── workflow-cover.png
│ ├── workflow-overview.png
│ ├── 1.png
│ ├── 2.png
│ ├── 3.png
│ ├── 4.png
│ ├── 5.png
│ ├── 6.png
│ ├── 7.png
│ ├── 8.png
│ └── 9.png
└── workflows/
└── Z-Anime-Workflow-v1.json
Historial de versiones
v1.0 — Lanzamiento inicial
- Z-Anime Base lanzado en BF16 y FP8
- Z-Anime Distill-8-Step lanzado en BF16 y FP8
- Z-Anime Distill-4-Step lanzado en BF16 y FP8
- Variantes GGUF añadidas (Q8_0 ~6.73 GB, Q4_K_S ~4.2 GB)
- Variantes AIO añadidas — Base, Distill-4-Step y Distill-8-Step (cada una en BF16 y FP8)
- VAE (
ae.safetensors) y Text Encoder (qwen_3_4b.safetensors) incluidos - Optimizado para euler_ancestral, euler + beta y uso práctico simple en toda la familia
Enlaces
- Modelo base: Tongyi-MAI/Z-Image
- Autor: SeeSee21 en Hugging Face
Atribución
- Arquitectura base: Tongyi Lab (Alibaba) — Z-Image
- Fine-Tune: SeeSee21
- Licencia: Apache 2.0
- Arquitectura: S3-DiT (Single-Stream Diffusion Transformer, 6B parámetros)
- Engineer V4 Text Encoder: BennyDaBall/Qwen3-4b-Z-Image-Engineer-V4 — fine-tune completo con entrenamiento SMART, incluido como text encoder alternativo



