Tailored news hub
homeImágenes

Z-Anime: Fine-Tune Completo para Generación Anime sobre Z-Image Base

Familia de modelos basada en S3-DiT con variantes optimizadas para calidad, velocidad y bajo consumo de VRAM

Z-Anime: Fine-Tune Completo para Generación Anime sobre Z-Image Base
#Ajuste Fino#Código Abierto#Entrenamiento#Generación de Contenido#Python

Z-Anime es un fine-tune completo (no LoRA) de la arquitectura Z-Image Base de Alibaba, adaptado a la generación de estilo anime. Incluye variantes Base, Distill-8-Step y Distill-4-Step en formatos BF16, FP8, GGUF y AIO, con soporte para 8GB VRAM, prompting en lenguaje natural y compatibilidad con LoRA.

Z-Anime | Fine-Tuning completo de anime sobre Z-Image Base

Fine-tuning completo de la arquitectura Z-Image Base de Alibaba — no es una fusión LoRA, sino una familia de modelos centrada en anime, completamente entrenada desde cero.

Construida sobre el S3-DiT (Single-Stream Diffusion Transformer, 6B parámetros), Z-Anime hereda la rica diversidad, la fuerte controlabilidad, el soporte completo de indicaciones negativas y un alto techo para fine-tuning de Z-Image Base — ahora adaptada para la generación de estilo anime.

Variantes

VarianteEnfoqueMejor para
Z-Anime BaseMáxima calidadRenderizados finales, control total
Z-Anime Distill-8-StepEquilibrio velocidad + calidadGeneración diaria
Z-Anime Distill-4-StepMáxima velocidadIteración rápida, lotes
Variantes GGUFMenor uso de memoriaFlujos de trabajo con poca VRAM / CPU / AMD
Variantes AIOComodidad de un solo archivoConfiguración fácil en ComfyUI
Carpeta DiffusersListo para from_pretrained()Pipelines en Python, fine-tuning adicional

Características principales

  • Fine-tuning completo sobre Z-Image Base — no una fusión LoRA
  • Rica estética anime con gran diversidad de estilos
  • Indicaciones en lenguaje natural: funciona mejor con descripciones detalladas, no con listas de etiquetas
  • Alta diversidad en personajes, poses, composiciones y diseños
  • Listo para entrenamiento LoRA — base sólida para fine-tuning adicional
  • Parcialmente compatible con NSFW
  • Compatible con 8GB de VRAM
  • Variantes GGUF disponibles
  • Variantes AIO disponibles (Base, 4-Step, 8-Step)

Variantes publicadas

Z-Anime Base

Fine-tuning completo sobre Z-Image Base — BF16 y FP8

Z-Anime Distill-8-Step

BF16 y FP8 — generación rápida de anime en 8 pasos, CFG 1.0

Z-Anime Distill-4-Step

BF16 y FP8 — generación ultrarrápida de anime en 4 pasos, CFG 1.0

Variantes GGUF

  • Z-Anime-Base-Q8_0 — cuantización Q8_0 (~6,73 GB)
  • Z-Anime-Base-Q4_K_S — cuantización Q4_K_S (~4,2 GB)

Variantes AIO

Checkpoints todo en uno con modelo de imagen + VAE + Text Encoder integrados en un solo archivo. Disponibles para Base, Distill-4-Step y Distill-8-Step — cada uno en BF16 y FP8.

VAE y Text Encoder

El VAE (ae.safetensors) y Text Encoder (qwen_3_4b.safetensors) necesarios también están incluidos en este repositorio para usuarios que ejecutan las variantes estándar (no AIO).

Carpeta Diffusers

La carpeta completa en formato Diffusers (diffusers/) está incluida — compatible directamente con ZImagePipeline.from_pretrained() para inferencia en Python o fine-tuning adicional.

Formatos de versión

BF16 (~12GB)

Precisión máxima. Formato BFloat16 con compromiso mínimo de calidad. Ideal para renderizados finales, trabajo cuidadoso y entrenamiento LoRA.

FP8 (~6GB)

Recomendado para la mayoría de usuarios. Archivos más pequeños, descargas más rápidas y excelente calidad con solo pequeñas compensaciones en comparación con BF16.

GGUF

Optimizado para configuraciones de inferencia ligeras, especialmente útil para poca VRAM, inferencia en CPU o backends alternativos.

AIO

Checkpoints todo en uno con modelo de imagen + Text Encoder + VAE integrados en un solo archivo para la configuración más sencilla. Disponible para Base, Distill-4-Step y Distill-8-Step.

Z-Anime Base

La base de la familia Z-Anime. Un fine-tune completo con el techo de calidad más alto, el rango creativo más amplio y soporte completo para negative prompts.

Configuración Recomendada

steps: 28-50
cfg: 3.0-5.0   # up to 9.0 possible
sampler: euler_ancestral
scheduler: beta
negative_prompt: strongly recommended

Guía de CFG

  • 3.0–5.0 → punto óptimo para calidad y creatividad equilibradas
  • 5.0–7.0 → mayor adherencia al prompt
  • 7.0–9.0 → control máximo, pero cuidado con la sobreexposición
  • Por encima de 9.0 → no recomendado

Los negative prompts tienen efecto completo en Z-Anime Base.

steps: 28-50
cfg: 3.0-5.0   # up to 9.0 possible
sampler: euler_ancestral
scheduler: beta
negative_prompt: strongly recommended

Z-Anime Distill-8-Step

Destilado de Z-Anime Base, ofrece resultados anime sólidos en solo 8 pasos mientras conserva la mayor parte de la calidad.

Configuración Recomendada

steps: 8
cfg: 1.0   # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect

Guía de CFG

  • Mejor en CFG 1.0
  • Pequeños aumentos a 1.3–1.5 son posibles
  • No vayas por encima de 1.5 — pueden aparecer artefactos

Los negative prompts tienen solo efecto limitado. Si tu flujo de trabajo incluye ConditioningZeroOut, prefiere eso en lugar de un negative prompt grande.

steps: 8
cfg: 1.0   # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect

Z-Anime Distill-4-Step

Construido para máximo rendimiento — prototipado rápido, generación por lotes veloz.

Configuración Recomendada

steps: 4
cfg: 1.0   # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect

Consejos para 4 pasos

  • Mantente en CFG 1.0 para obtener los resultados más estables
  • Coloca los detalles visuales más importantes al principio del prompt
  • Un upscaler opcional (por ejemplo, hires fix o SeedVR2) puede recuperar detalles finos
steps: 4
cfg: 1.0   # max ~1.5
sampler: euler_ancestral
scheduler: beta
negative_prompt: limited effect

Guía de Resoluciones

Caso de usoResolución
Retrato / arte de personaje832 × 1216
Paisaje / escenas / fondos1216 × 832
Cuadrado / uso general1024 × 1024
Vertical / cuerpo completo / fondo de pantalla768 × 1344
Cinematográfico / escenas amplias1920 × 1088
Retratos detallados1024 × 1536

Rango soportado: aproximadamente 512 × 512 a 2048 × 2048, cualquier proporción. Todas las variantes principales están diseñadas para funcionar en 8GB de VRAM.

Guía de Prompts

El lenguaje natural funciona mejor — no las listas de etiquetas.

✅ Bueno

A young anime girl with long silver hair and golden eyes, wearing a traditional shrine maiden outfit with white haori and red hakama. She stands in a sunlit bamboo forest, cherry blossoms falling softly around her. Warm afternoon light filtering through the trees, detailed fabric shading, expressive face, calm serene expression, high quality anime illustration with fine line work.

❌ Evitar

anime girl, silver hair, shrine maiden, bamboo, cherry blossom, warm light

Retratos de Personajes

Detailed anime portrait of [character], soft rim lighting, expressive eyes with detailed reflections, fine hair strands, clean linework, professional anime illustration quality.

Escenas de Acción

Dynamic anime [scene], dramatic angle, motion energy, speed lines, particle effects, cinematic composition, detailed shading, high quality anime art.

Fondos y Paisajes

Anime [location] at [time of day], [lighting], [atmosphere], beautiful background art, wallpaper quality, highly detailed environment.
A young anime girl with long silver hair and golden eyes, wearing a traditional shrine maiden outfit with white haori and red hakama. She stands in a sunlit bamboo forest, cherry blossoms falling softly around her. Warm afternoon light filtering through the trees, detailed fabric shading, expressive face, calm serene expression, high quality anime illustration with fine line work.
anime girl, silver hair, shrine maiden, bamboo, cherry blossom, warm light
Detailed anime portrait of [character], soft rim lighting, expressive eyes with detailed reflections, fine hair strands, clean linework, professional anime illustration quality.
Dynamic anime [scene], dramatic angle, motion energy, speed lines, particle effects, cinematic composition, detailed shading, high quality anime art.
Anime [location] at [time of day], [lighting], [atmosphere], beautiful background art, wallpaper quality, highly detailed environment.

Instalación

Paso 1 — Descarga la versión que desees

Elige entre:

  • Modelos estándar / destilados en BF16 o FP8 (+ VAE + Text Encoder)
  • Variantes GGUF para inferencia con poca VRAM, CPU o compatible con AMD (+ VAE + Text Encoder)
  • Variantes AIO para comodidad en un solo archivo (no necesitas VAE / Text Encoder adicional)

Paso 2 — Coloca los archivos

Modelos estándar BF16 / FP8

ComfyUI/models/diffusion_models/
├── z-anime-base-bf16.safetensors
├── z-anime-base-fp8.safetensors
├── z-anime-distill-8step-bf16.safetensors
├── z-anime-distill-8step-fp8.safetensors
├── z-anime-distill-4step-bf16.safetensors
└── z-anime-distill-4step-fp8.safetensors

Variantes GGUF

ComfyUI/models/unet/
├── z-anime-base-q8_0.gguf
└── z-anime-base-q4_k_s.gguf

Text Encoder

Se incluyen dos text encoders: elige uno:

ComfyUI/models/clip/
└── qwen_3_4b-bf16.safetensors          # predeterminado (estándar Z-Image, BF16)
   o
└── qwen_3_4b-fp8.safetensors           # predeterminado (estándar Z-Image, FP8)
   o
└── qwen_3_4b-engineer-v4-bf16.safetensors   # alternativa (Engineer V4, BF16)
   o
└── qwen_3_4b-engineer-v4-fp8.safetensors    # alternativa (Engineer V4, FP8)
  • Predeterminado (qwen_3_4b-*) — text encoder estándar de Z-Image, reempaquetado como un único .safetensors (BF16 + FP8). Este es con el que se entrenó el modelo.
  • Engineer V4 (qwen_3_4b-engineer-v4-*) — ajuste fino completo alternativo del text encoder de Z-Image por BennyDaBall, compatible como reemplazo directo. A menudo produce resultados más variados con la misma semilla.

VAE

ComfyUI/models/vae/
└── ae.safetensors

Variantes AIO

Para las versiones AIO, solo se necesita el archivo de checkpoint único:

ComfyUI/models/checkpoints/
├── z-anime-base-aio-bf16.safetensors
├── z-anime-base-aio-fp8.safetensors
├── z-anime-distill-8step-aio-bf16.safetensors
├── z-anime-distill-8step-aio-fp8.safetensors
├── z-anime-distill-4step-aio-bf16.safetensors
└── z-anime-distill-4step-aio-fp8.safetensors

Paso 3 — Cargar en ComfyUI

Para las versiones estándar BF16 / FP8

Usa: Load Diffusion Model para el modelo, CLIP Loader para el text encoder, VAE Loader para el VAE.

Para las versiones GGUF

Carga el modelo GGUF desde models/unet/, mismo CLIP y VAE que arriba.

Para las versiones AIO

Usa un Checkpoint Loader estándar — no se requiere cargar CLIP ni VAE adicionales.

ComfyUI/models/diffusion_models/
├── z-anime-base-bf16.safetensors
├── z-anime-base-fp8.safetensors
├── z-anime-distill-8step-bf16.safetensors
├── z-anime-distill-8step-fp8.safetensors
├── z-anime-distill-4step-bf16.safetensors
└── z-anime-distill-4step-fp8.safetensors
ComfyUI/models/unet/
├── z-anime-base-q8_0.gguf
└── z-anime-base-q4_k_s.gguf
ComfyUI/models/clip/
└── qwen_3_4b-bf16.safetensors          # default (Z-Image standard, BF16)
   or
└── qwen_3_4b-fp8.safetensors           # default (Z-Image standard, FP8)
   or
└── qwen_3_4b-engineer-v4-bf16.safetensors   # alternative (Engineer V4, BF16)
   or
└── qwen_3_4b-engineer-v4-fp8.safetensors    # alternative (Engineer V4, FP8)
ComfyUI/models/vae/
└── ae.safetensors
ComfyUI/models/checkpoints/
├── z-anime-base-aio-bf16.safetensors
├── z-anime-base-aio-fp8.safetensors
├── z-anime-distill-8step-aio-bf16.safetensors
├── z-anime-distill-8step-aio-fp8.safetensors
├── z-anime-distill-4step-aio-bf16.safetensors
└── z-anime-distill-4step-aio-fp8.safetensors

Nodos personalizados

  • rgthree-comfy
  • ComfyUI-Lora-Manager
  • ComfyUI-GGUF (solo para variantes GGUF)
  • ComfyUI-SeedVR2_VideoUpscaler (opcional)

Uso de la carpeta Diffusers (Python)

import torch
from diffusers import ZImagePipeline

pipe = ZImagePipeline.from_pretrained(
    "SeeSee21/Z-Anime",
    subfolder="diffusers",
    torch_dtype=torch.bfloat16,
).to("cuda")

image = pipe(
    prompt="Una joven chica anime de largo cabello plateado y ojos dorados, "
           "atuendo de doncella de santuario, bosque de bambú bañado por el sol, flores de cerezo, "
           "ilustración profesional de anime, líneas finas.",
    num_inference_steps=40,
    guidance_scale=4.0,
).images[0]

image.save("z-anime-output.png")

Este formato también es un punto de partida limpio para realizar ajustes finos (LoRA o ajuste fino completo) con frameworks como OneTrainer, diffusers o kohya-ss.

import torch
from diffusers import ZImagePipeline

pipe = ZImagePipeline.from_pretrained(
    "SeeSee21/Z-Anime",
    subfolder="diffusers",
    torch_dtype=torch.bfloat16,
).to("cuda")

image = pipe(
    prompt="A young anime girl with long silver hair and golden eyes, "
           "shrine maiden outfit, sunlit bamboo forest, cherry blossoms, "
           "professional anime illustration, fine line work.",
    num_inference_steps=40,
    guidance_scale=4.0,
).images[0]

image.save("z-anime-output.png")

Flujo de trabajo oficial

Un flujo de trabajo listo para usar de ComfyUI (workflows/Z-Anime-Workflow-v1.json) es compatible con todas las variantes (Base / Distill-8 / Distill-4, BF16 / FP8 / GGUF / AIO) e incluye:

  • Cambio de modelo (cargadores Diffusion / GGUF / AIO)
  • Cargador de LoRA opcional
  • Nodos de prompt positivo + negativo (con un negativo predeterminado para anime)
  • Preajustes de resolución
  • Generación + Escalado opcional 1.5× con comparación lado a lado
  • Guía MarkdownNote integrada con configuraciones por variante

Estructura del repositorio

Z-Anime/
├── README.md
├── config.json
│
├── diffusion_models/
│   ├── z-anime-base-bf16.safetensors
│   ├── z-anime-base-fp8.safetensors
│   ├── z-anime-distill-8step-bf16.safetensors
│   ├── z-anime-distill-8step-fp8.safetensors
│   ├── z-anime-distill-4step-bf16.safetensors
│   └── z-anime-distill-4step-fp8.safetensors
│
├── gguf/
│   ├── z-anime-base-q8_0.gguf
│   └── z-anime-base-q4_k_s.gguf
│
├── aio/
│   ├── z-anime-base-aio-bf16.safetensors
│   ├── z-anime-base-aio-fp8.safetensors
│   ├── z-anime-distill-8step-aio-bf16.safetensors
│   ├── z-anime-distill-8step-aio-fp8.safetensors
│   ├── z-anime-distill-4step-aio-bf16.safetensors
│   └── z-anime-distill-4step-aio-fp8.safetensors
│
├── text_encoder/
│   ├── qwen_3_4b-bf16.safetensors                  # predeterminado
│   ├── qwen_3_4b-fp8.safetensors                   # predeterminado
│   ├── qwen_3_4b-engineer-v4-bf16.safetensors      # alternativa (BennyDaBall)
│   └── qwen_3_4b-engineer-v4-fp8.safetensors       # alternativa (BennyDaBall)
│
├── vae/
│   └── ae.safetensors
│
├── diffusers/
│   ├── model_index.json
│   ├── scheduler/
│   ├── tokenizer/
│   ├── text_encoder/
│   ├── transformer/   (safetensors fragmentados + índice)
│   └── vae/
│
├── images/
│   ├── cover.png
│   ├── workflow-cover.png
│   ├── workflow-overview.png
│   ├── 1.png
│   ├── 2.png
│   ├── 3.png
│   ├── 4.png
│   ├── 5.png
│   ├── 6.png
│   ├── 7.png
│   ├── 8.png
│   └── 9.png
└── workflows/
    └── Z-Anime-Workflow-v1.json
Z-Anime/
├── README.md
├── config.json
│
├── diffusion_models/
│   ├── z-anime-base-bf16.safetensors
│   ├── z-anime-base-fp8.safetensors
│   ├── z-anime-distill-8step-bf16.safetensors
│   ├── z-anime-distill-8step-fp8.safetensors
│   ├── z-anime-distill-4step-bf16.safetensors
│   └── z-anime-distill-4step-fp8.safetensors
│
├── gguf/
│   ├── z-anime-base-q8_0.gguf
│   └── z-anime-base-q4_k_s.gguf
│
├── aio/
│   ├── z-anime-base-aio-bf16.safetensors
│   ├── z-anime-base-aio-fp8.safetensors
│   ├── z-anime-distill-8step-aio-bf16.safetensors
│   ├── z-anime-distill-8step-aio-fp8.safetensors
│   ├── z-anime-distill-4step-aio-bf16.safetensors
│   └── z-anime-distill-4step-aio-fp8.safetensors
│
├── text_encoder/
│   ├── qwen_3_4b-bf16.safetensors                  # default
│   ├── qwen_3_4b-fp8.safetensors                   # default
│   ├── qwen_3_4b-engineer-v4-bf16.safetensors      # alternative (BennyDaBall)
│   └── qwen_3_4b-engineer-v4-fp8.safetensors       # alternative (BennyDaBall)
│
├── vae/
│   └── ae.safetensors
│
├── diffusers/
│   ├── model_index.json
│   ├── scheduler/
│   ├── tokenizer/
│   ├── text_encoder/
│   ├── transformer/   (sharded safetensors + index)
│   └── vae/
│
├── images/
│   ├── cover.png
│   ├── workflow-cover.png
│   ├── workflow-overview.png
│   ├── 1.png
│   ├── 2.png
│   ├── 3.png
│   ├── 4.png
│   ├── 5.png
│   ├── 6.png
│   ├── 7.png
│   ├── 8.png
│   └── 9.png
└── workflows/
    └── Z-Anime-Workflow-v1.json

Historial de versiones

v1.0 — Lanzamiento inicial

  • Z-Anime Base lanzado en BF16 y FP8
  • Z-Anime Distill-8-Step lanzado en BF16 y FP8
  • Z-Anime Distill-4-Step lanzado en BF16 y FP8
  • Variantes GGUF añadidas (Q8_0 ~6.73 GB, Q4_K_S ~4.2 GB)
  • Variantes AIO añadidas — Base, Distill-4-Step y Distill-8-Step (cada una en BF16 y FP8)
  • VAE (ae.safetensors) y Text Encoder (qwen_3_4b.safetensors) incluidos
  • Optimizado para euler_ancestral, euler + beta y uso práctico simple en toda la familia

Enlaces

Atribución

  • Arquitectura base: Tongyi Lab (Alibaba) — Z-Image
  • Fine-Tune: SeeSee21
  • Licencia: Apache 2.0
  • Arquitectura: S3-DiT (Single-Stream Diffusion Transformer, 6B parámetros)
  • Engineer V4 Text Encoder: BennyDaBall/Qwen3-4b-Z-Image-Engineer-V4 — fine-tune completo con entrenamiento SMART, incluido como text encoder alternativo
Artículos Relacionados