Z-Anime: Fine-Tune Completo para Generación Anime sobre Z-Image Base

Familia de modelos basada en S3-DiT con variantes optimizadas para calidad, velocidad y bajo consumo de VRAM

24 de mayo de 2026

#Ajuste Fino #Código Abierto #Entrenamiento #Generación de Contenido #Python

Z-Anime es un fine-tune completo (no LoRA) de la arquitectura Z-Image Base de Alibaba, adaptado a la generación de estilo anime. Incluye variantes Base, Distill-8-Step y Distill-4-Step en formatos BF16, FP8, GGUF y AIO, con soporte para 8GB VRAM, prompting en lenguaje natural y compatibilidad con LoRA.

Z-Anime | Fine-Tuning completo de anime sobre Z-Image Base

Fine-tuning completo de la arquitectura Z-Image Base de Alibaba — no es una fusión LoRA, sino una familia de modelos centrada en anime, completamente entrenada desde cero.

Construida sobre el S3-DiT (Single-Stream Diffusion Transformer, 6B parámetros), Z-Anime hereda la rica diversidad, la fuerte controlabilidad, el soporte completo de indicaciones negativas y un alto techo para fine-tuning de Z-Image Base — ahora adaptada para la generación de estilo anime.

Variantes

Variante	Enfoque	Mejor para
Z-Anime Base	Máxima calidad	Renderizados finales, control total
Z-Anime Distill-8-Step	Equilibrio velocidad + calidad	Generación diaria
Z-Anime Distill-4-Step	Máxima velocidad	Iteración rápida, lotes
Variantes GGUF	Menor uso de memoria	Flujos de trabajo con poca VRAM / CPU / AMD
Variantes AIO	Comodidad de un solo archivo	Configuración fácil en ComfyUI
Carpeta Diffusers	Listo para `from_pretrained()`	Pipelines en Python, fine-tuning adicional

Características principales

Fine-tuning completo sobre Z-Image Base — no una fusión LoRA
Rica estética anime con gran diversidad de estilos
Indicaciones en lenguaje natural: funciona mejor con descripciones detalladas, no con listas de etiquetas
Alta diversidad en personajes, poses, composiciones y diseños
Listo para entrenamiento LoRA — base sólida para fine-tuning adicional
Parcialmente compatible con NSFW
Compatible con 8GB de VRAM
Variantes GGUF disponibles
Variantes AIO disponibles (Base, 4-Step, 8-Step)

Variantes publicadas

Z-Anime Base

Fine-tuning completo sobre Z-Image Base — BF16 y FP8

Z-Anime Distill-8-Step

BF16 y FP8 — generación rápida de anime en 8 pasos, CFG 1.0

Z-Anime Distill-4-Step

BF16 y FP8 — generación ultrarrápida de anime en 4 pasos, CFG 1.0

Variantes GGUF

Z-Anime-Base-Q8_0 — cuantización Q8_0 (~6,73 GB)
Z-Anime-Base-Q4_K_S — cuantización Q4_K_S (~4,2 GB)

Variantes AIO

Checkpoints todo en uno con modelo de imagen + VAE + Text Encoder integrados en un solo archivo. Disponibles para Base, Distill-4-Step y Distill-8-Step — cada uno en BF16 y FP8.

VAE y Text Encoder

El VAE (ae.safetensors) y Text Encoder (qwen_3_4b.safetensors) necesarios también están incluidos en este repositorio para usuarios que ejecutan las variantes estándar (no AIO).

Carpeta Diffusers

La carpeta completa en formato Diffusers (diffusers/) está incluida — compatible directamente con ZImagePipeline.from_pretrained() para inferencia en Python o fine-tuning adicional.

Formatos de versión

BF16 (~12GB)

Precisión máxima. Formato BFloat16 con compromiso mínimo de calidad. Ideal para renderizados finales, trabajo cuidadoso y entrenamiento LoRA.

FP8 (~6GB)

Recomendado para la mayoría de usuarios. Archivos más pequeños, descargas más rápidas y excelente calidad con solo pequeñas compensaciones en comparación con BF16.

GGUF

Optimizado para configuraciones de inferencia ligeras, especialmente útil para poca VRAM, inferencia en CPU o backends alternativos.

AIO

Checkpoints todo en uno con modelo de imagen + Text Encoder + VAE integrados en un solo archivo para la configuración más sencilla. Disponible para Base, Distill-4-Step y Distill-8-Step.

Z-Anime Base

La base de la familia Z-Anime. Un fine-tune completo con el techo de calidad más alto, el rango creativo más amplio y soporte completo para negative prompts.

Configuración Recomendada

steps: 28-50
cfg: 3.0-5.0   # up to 9.0 possible
sampler: euler_ancestral
scheduler: beta
negative_prompt: strongly recommended

Guía de CFG

3.0–5.0 → punto óptimo para calidad y creatividad equilibradas
5.0–7.0 → mayor adherencia al prompt
7.0–9.0 → control máximo, pero cuidado con la sobreexposición
Por encima de 9.0 → no recomendado

Los negative prompts tienen efecto completo en Z-Anime Base.

steps: 28-50
cfg: 3.0-5.0   # up to 9.0 possible
sampler: euler_ancestral
scheduler: beta
negative_prompt: strongly recommended

Z-Anime Distill-8-Step

Destilado de Z-Anime Base, ofrece resultados anime sólidos en solo 8 pasos mientras conserva la mayor parte de la calidad.

Configuración Recomendada

steps: 8
cfg: 1.0   # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect

Guía de CFG

Mejor en CFG 1.0
Pequeños aumentos a 1.3–1.5 son posibles
No vayas por encima de 1.5 — pueden aparecer artefactos

Los negative prompts tienen solo efecto limitado. Si tu flujo de trabajo incluye ConditioningZeroOut, prefiere eso en lugar de un negative prompt grande.

steps: 8
cfg: 1.0   # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect

Z-Anime Distill-4-Step

Construido para máximo rendimiento — prototipado rápido, generación por lotes veloz.

Configuración Recomendada

steps: 4
cfg: 1.0   # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect

Consejos para 4 pasos

Mantente en CFG 1.0 para obtener los resultados más estables
Coloca los detalles visuales más importantes al principio del prompt
Un upscaler opcional (por ejemplo, hires fix o SeedVR2) puede recuperar detalles finos

steps: 4
cfg: 1.0   # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect

Guía de Resoluciones

Caso de uso	Resolución
Retrato / arte de personaje	832 × 1216
Paisaje / escenas / fondos	1216 × 832
Cuadrado / uso general	1024 × 1024
Vertical / cuerpo completo / fondo de pantalla	768 × 1344
Cinematográfico / escenas amplias	1920 × 1088
Retratos detallados	1024 × 1536

Rango soportado: aproximadamente 512 × 512 a 2048 × 2048, cualquier proporción. Todas las variantes principales están diseñadas para funcionar en 8GB de VRAM.

Guía de Prompts

El lenguaje natural funciona mejor — no las listas de etiquetas.

✅ Bueno

A young anime girl with long silver hair and golden eyes, wearing a traditional shrine maiden outfit with white haori and red hakama. She stands in a sunlit bamboo forest, cherry blossoms falling softly around her. Warm afternoon light filtering through the trees, detailed fabric shading, expressive face, calm serene expression, high quality anime illustration with fine line work.

❌ Evitar

anime girl, silver hair, shrine maiden, bamboo, cherry blossom, warm light

Retratos de Personajes

Detailed anime portrait of [character], soft rim lighting, expressive eyes with detailed reflections, fine hair strands, clean linework, professional anime illustration quality.

Escenas de Acción

Dynamic anime [scene], dramatic angle, motion energy, speed lines, particle effects, cinematic composition, detailed shading, high quality anime art.

Fondos y Paisajes

Anime [location] at [time of day], [lighting], [atmosphere], beautiful background art, wallpaper quality, highly detailed environment.

A young anime girl with long silver hair and golden eyes, wearing a traditional shrine maiden outfit with white haori and red hakama. She stands in a sunlit bamboo forest, cherry blossoms falling softly around her. Warm afternoon light filtering through the trees, detailed fabric shading, expressive face, calm serene expression, high quality anime illustration with fine line work.

anime girl, silver hair, shrine maiden, bamboo, cherry blossom, warm light

Detailed anime portrait of [character], soft rim lighting, expressive eyes with detailed reflections, fine hair strands, clean linework, professional anime illustration quality.

Dynamic anime [scene], dramatic angle, motion energy, speed lines, particle effects, cinematic composition, detailed shading, high quality anime art.

Anime [location] at [time of day], [lighting], [atmosphere], beautiful background art, wallpaper quality, highly detailed environment.

Instalación

Paso 1 — Descarga la versión que desees

Elige entre:

Modelos estándar / destilados en BF16 o FP8 (+ VAE + Text Encoder)
Variantes GGUF para inferencia con poca VRAM, CPU o compatible con AMD (+ VAE + Text Encoder)
Variantes AIO para comodidad en un solo archivo (no necesitas VAE / Text Encoder adicional)

Paso 2 — Coloca los archivos

Modelos estándar BF16 / FP8

ComfyUI/models/diffusion_models/
├── z-anime-base-bf16.safetensors
├── z-anime-base-fp8.safetensors
├── z-anime-distill-8step-bf16.safetensors
├── z-anime-distill-8step-fp8.safetensors
├── z-anime-distill-4step-bf16.safetensors
└── z-anime-distill-4step-fp8.safetensors

Variantes GGUF

ComfyUI/models/unet/
├── z-anime-base-q8_0.gguf
└── z-anime-base-q4_k_s.gguf

Text Encoder

Se incluyen dos text encoders: elige uno:

ComfyUI/models/clip/
└── qwen_3_4b-bf16.safetensors          # predeterminado (estándar Z-Image, BF16)
   o
└── qwen_3_4b-fp8.safetensors           # predeterminado (estándar Z-Image, FP8)
   o
└── qwen_3_4b-engineer-v4-bf16.safetensors   # alternativa (Engineer V4, BF16)
   o
└── qwen_3_4b-engineer-v4-fp8.safetensors    # alternativa (Engineer V4, FP8)

Predeterminado (qwen_3_4b-*) — text encoder estándar de Z-Image, reempaquetado como un único .safetensors (BF16 + FP8). Este es con el que se entrenó el modelo.
Engineer V4 (qwen_3_4b-engineer-v4-*) — ajuste fino completo alternativo del text encoder de Z-Image por BennyDaBall, compatible como reemplazo directo. A menudo produce resultados más variados con la misma semilla.

VAE

ComfyUI/models/vae/
└── ae.safetensors

Variantes AIO

Para las versiones AIO, solo se necesita el archivo de checkpoint único:

ComfyUI/models/checkpoints/
├── z-anime-base-aio-bf16.safetensors
├── z-anime-base-aio-fp8.safetensors
├── z-anime-distill-8step-aio-bf16.safetensors
├── z-anime-distill-8step-aio-fp8.safetensors
├── z-anime-distill-4step-aio-bf16.safetensors
└── z-anime-distill-4step-aio-fp8.safetensors

Paso 3 — Cargar en ComfyUI

Para las versiones estándar BF16 / FP8

Usa: Load Diffusion Model para el modelo, CLIP Loader para el text encoder, VAE Loader para el VAE.

Para las versiones GGUF

Carga el modelo GGUF desde models/unet/, mismo CLIP y VAE que arriba.

Para las versiones AIO

Usa un Checkpoint Loader estándar — no se requiere cargar CLIP ni VAE adicionales.

ComfyUI/models/diffusion_models/
├── z-anime-base-bf16.safetensors
├── z-anime-base-fp8.safetensors
├── z-anime-distill-8step-bf16.safetensors
├── z-anime-distill-8step-fp8.safetensors
├── z-anime-distill-4step-bf16.safetensors
└── z-anime-distill-4step-fp8.safetensors

ComfyUI/models/unet/
├── z-anime-base-q8_0.gguf
└── z-anime-base-q4_k_s.gguf

ComfyUI/models/clip/
└── qwen_3_4b-bf16.safetensors          # default (Z-Image standard, BF16)
   or
└── qwen_3_4b-fp8.safetensors           # default (Z-Image standard, FP8)
   or
└── qwen_3_4b-engineer-v4-bf16.safetensors   # alternative (Engineer V4, BF16)
   or
└── qwen_3_4b-engineer-v4-fp8.safetensors    # alternative (Engineer V4, FP8)

ComfyUI/models/vae/
└── ae.safetensors

ComfyUI/models/checkpoints/
├── z-anime-base-aio-bf16.safetensors
├── z-anime-base-aio-fp8.safetensors
├── z-anime-distill-8step-aio-bf16.safetensors
├── z-anime-distill-8step-aio-fp8.safetensors
├── z-anime-distill-4step-aio-bf16.safetensors
└── z-anime-distill-4step-aio-fp8.safetensors

Nodos personalizados

rgthree-comfy
ComfyUI-Lora-Manager
ComfyUI-GGUF (solo para variantes GGUF)
ComfyUI-SeedVR2_VideoUpscaler (opcional)

Uso de la carpeta Diffusers (Python)

import torch
from diffusers import ZImagePipeline

pipe = ZImagePipeline.from_pretrained(
    "SeeSee21/Z-Anime",
    subfolder="diffusers",
    torch_dtype=torch.bfloat16,
).to("cuda")

image = pipe(
    prompt="Una joven chica anime de largo cabello plateado y ojos dorados, "
           "atuendo de doncella de santuario, bosque de bambú bañado por el sol, flores de cerezo, "
           "ilustración profesional de anime, líneas finas.",
    num_inference_steps=40,
    guidance_scale=4.0,
).images[0]

image.save("z-anime-output.png")

Este formato también es un punto de partida limpio para realizar ajustes finos (LoRA o ajuste fino completo) con frameworks como OneTrainer, diffusers o kohya-ss.

import torch
from diffusers import ZImagePipeline

pipe = ZImagePipeline.from_pretrained(
    "SeeSee21/Z-Anime",
    subfolder="diffusers",
    torch_dtype=torch.bfloat16,
).to("cuda")

image = pipe(
    prompt="A young anime girl with long silver hair and golden eyes, "
           "shrine maiden outfit, sunlit bamboo forest, cherry blossoms, "
           "professional anime illustration, fine line work.",
    num_inference_steps=40,
    guidance_scale=4.0,
).images[0]

image.save("z-anime-output.png")

Flujo de trabajo oficial

Un flujo de trabajo listo para usar de ComfyUI (workflows/Z-Anime-Workflow-v1.json) es compatible con todas las variantes (Base / Distill-8 / Distill-4, BF16 / FP8 / GGUF / AIO) e incluye:

Cambio de modelo (cargadores Diffusion / GGUF / AIO)
Cargador de LoRA opcional
Nodos de prompt positivo + negativo (con un negativo predeterminado para anime)
Preajustes de resolución
Generación + Escalado opcional 1.5× con comparación lado a lado
Guía MarkdownNote integrada con configuraciones por variante

Estructura del repositorio

Z-Anime/
├── README.md
├── config.json
│
├── diffusion_models/
│   ├── z-anime-base-bf16.safetensors
│   ├── z-anime-base-fp8.safetensors
│   ├── z-anime-distill-8step-bf16.safetensors
│   ├── z-anime-distill-8step-fp8.safetensors
│   ├── z-anime-distill-4step-bf16.safetensors
│   └── z-anime-distill-4step-fp8.safetensors
│
├── gguf/
│   ├── z-anime-base-q8_0.gguf
│   └── z-anime-base-q4_k_s.gguf
│
├── aio/
│   ├── z-anime-base-aio-bf16.safetensors
│   ├── z-anime-base-aio-fp8.safetensors
│   ├── z-anime-distill-8step-aio-bf16.safetensors
│   ├── z-anime-distill-8step-aio-fp8.safetensors
│   ├── z-anime-distill-4step-aio-bf16.safetensors
│   └── z-anime-distill-4step-aio-fp8.safetensors
│
├── text_encoder/
│   ├── qwen_3_4b-bf16.safetensors                  # predeterminado
│   ├── qwen_3_4b-fp8.safetensors                   # predeterminado
│   ├── qwen_3_4b-engineer-v4-bf16.safetensors      # alternativa (BennyDaBall)
│   └── qwen_3_4b-engineer-v4-fp8.safetensors       # alternativa (BennyDaBall)
│
├── vae/
│   └── ae.safetensors
│
├── diffusers/
│   ├── model_index.json
│   ├── scheduler/
│   ├── tokenizer/
│   ├── text_encoder/
│   ├── transformer/   (safetensors fragmentados + índice)
│   └── vae/
│
├── images/
│   ├── cover.png
│   ├── workflow-cover.png
│   ├── workflow-overview.png
│   ├── 1.png
│   ├── 2.png
│   ├── 3.png
│   ├── 4.png
│   ├── 5.png
│   ├── 6.png
│   ├── 7.png
│   ├── 8.png
│   └── 9.png
└── workflows/
    └── Z-Anime-Workflow-v1.json

Z-Anime/
├── README.md
├── config.json
│
├── diffusion_models/
│   ├── z-anime-base-bf16.safetensors
│   ├── z-anime-base-fp8.safetensors
│   ├── z-anime-distill-8step-bf16.safetensors
│   ├── z-anime-distill-8step-fp8.safetensors
│   ├── z-anime-distill-4step-bf16.safetensors
│   └── z-anime-distill-4step-fp8.safetensors
│
├── gguf/
│   ├── z-anime-base-q8_0.gguf
│   └── z-anime-base-q4_k_s.gguf
│
├── aio/
│   ├── z-anime-base-aio-bf16.safetensors
│   ├── z-anime-base-aio-fp8.safetensors
│   ├── z-anime-distill-8step-aio-bf16.safetensors
│   ├── z-anime-distill-8step-aio-fp8.safetensors
│   ├── z-anime-distill-4step-aio-bf16.safetensors
│   └── z-anime-distill-4step-aio-fp8.safetensors
│
├── text_encoder/
│   ├── qwen_3_4b-bf16.safetensors                  # default
│   ├── qwen_3_4b-fp8.safetensors                   # default
│   ├── qwen_3_4b-engineer-v4-bf16.safetensors      # alternative (BennyDaBall)
│   └── qwen_3_4b-engineer-v4-fp8.safetensors       # alternative (BennyDaBall)
│
├── vae/
│   └── ae.safetensors
│
├── diffusers/
│   ├── model_index.json
│   ├── scheduler/
│   ├── tokenizer/
│   ├── text_encoder/
│   ├── transformer/   (sharded safetensors + index)
│   └── vae/
│
├── images/
│   ├── cover.png
│   ├── workflow-cover.png
│   ├── workflow-overview.png
│   ├── 1.png
│   ├── 2.png
│   ├── 3.png
│   ├── 4.png
│   ├── 5.png
│   ├── 6.png
│   ├── 7.png
│   ├── 8.png
│   └── 9.png
└── workflows/
    └── Z-Anime-Workflow-v1.json

Historial de versiones

v1.0 — Lanzamiento inicial

Z-Anime Base lanzado en BF16 y FP8
Z-Anime Distill-8-Step lanzado en BF16 y FP8
Z-Anime Distill-4-Step lanzado en BF16 y FP8
Variantes GGUF añadidas (Q8_0 ~6.73 GB, Q4_K_S ~4.2 GB)
Variantes AIO añadidas — Base, Distill-4-Step y Distill-8-Step (cada una en BF16 y FP8)
VAE (ae.safetensors) y Text Encoder (qwen_3_4b.safetensors) incluidos
Optimizado para euler_ancestral, euler + beta y uso práctico simple en toda la familia

Enlaces

Modelo base: Tongyi-MAI/Z-Image
Autor: SeeSee21 en Hugging Face

Atribución

Arquitectura base: Tongyi Lab (Alibaba) — Z-Image
Fine-Tune: SeeSee21
Licencia: Apache 2.0
Arquitectura: S3-DiT (Single-Stream Diffusion Transformer, 6B parámetros)
Engineer V4 Text Encoder: BennyDaBall/Qwen3-4b-Z-Image-Engineer-V4 — fine-tune completo con entrenamiento SMART, incluido como text encoder alternativo

Project page

Z-Anime | Fine-Tuning completo de anime sobre Z-Image Base

Variantes

Características principales

Variantes publicadas

Z-Anime Base

Z-Anime Distill-8-Step

Z-Anime Distill-4-Step

Variantes GGUF

Variantes AIO

VAE y Text Encoder

Carpeta Diffusers

Formatos de versión

BF16 (~12GB)

FP8 (~6GB)

GGUF

AIO

Z-Anime Base

Configuración Recomendada

Guía de CFG

Z-Anime Distill-8-Step

Configuración Recomendada

Guía de CFG

Z-Anime Distill-4-Step

Configuración Recomendada

Consejos para 4 pasos

Guía de Resoluciones

Guía de Prompts

✅ Bueno

❌ Evitar

Retratos de Personajes

Escenas de Acción

Fondos y Paisajes

Instalación

Paso 1 — Descarga la versión que desees

Paso 2 — Coloca los archivos

Modelos estándar BF16 / FP8

Variantes GGUF

Text Encoder

VAE

Variantes AIO

Paso 3 — Cargar en ComfyUI

Para las versiones estándar BF16 / FP8

Para las versiones GGUF

Para las versiones AIO

Nodos personalizados

Uso de la carpeta Diffusers (Python)

Flujo de trabajo oficial

Estructura del repositorio

Historial de versiones

v1.0 — Lanzamiento inicial

Enlaces

Atribución

Juggernaut Z: Ajuste cinematográfico de Z-Image Base

Juggernaut Z: Ajuste cinematográfico de Z-Image Base

Ideogram 4: El Modelo de Texto a Imagen de Código Abierto Líder

Ideogram 4: El Modelo de Texto a Imagen de Código Abierto Líder

Cómo Bonsai Ternary 4B revoluciona la difusión texto-imagen