Python
Page 1 of 1

SwiftVR: Restauración de Video Generativa en Tiempo Real para GPU de Consumo
SwiftVR es un marco de restauración de video generativa de un solo paso diseñado para transmisiones en vivo. Aborda cuellos de botella en GPU de consumo con atención de ventana desplazada sin máscaras y un autoencoder ligero, logrando 26 FPS a 1080p en una RTX 5090 y 14 FPS a 4K en una H100.

mnemo: Capa de Memoria Local-First para LLMs
mnemo es una capa de memoria local-first para cualquier LLM, resolviendo la pérdida de contexto entre sesiones. Ofrece memoria persistente y estructurada sin dependencia de la nube, utilizando un grafo de conocimiento en SQLite y un servicio sidecar para la extracción y recuperación de entidades.

dots.tts: Modelo Fundacional de Texto-a-Voz Autoregresivo Continuo de 2B Parámetros
Presentamos dots.tts, un modelo de texto-a-voz autoregresivo continuo de 2B parámetros con un espacio latente continuo. Destaca por su AudioVAE multiobjetivo, condicionamiento de historial completo y post-entrenamiento autocorrector, logrando un rendimiento lÃder en Seed-TTS-Eval y benchmarks de código abierto.

Tu IA no necesita tu pantalla: ¡Un semáforo te lo dirá todo!
Descubre cómo convertir un semáforo de juguete en un "CursorLight", un indicador visual para tu Cursor Agent. Con un ESP32-C3 y un script Python, sabrás si tu IA está pensando, ocupada o ha terminado, sin tener que mirar la pantalla. ¡Haz que tu IA sea más intuitiva!

Qué es MLLM-Jailbreak-Bench y cómo evaluar la seguridad de LLM multimodales
Aprende sobre MLLM-Jailbreak-Bench, una herramienta esencial para evaluar la seguridad de los Modelos de Lenguaje Grandes Multimodales (MLLM). Entiende sus métricas clave como ASR, calidad de rechazo y error de calibración, y cómo utilizarlas para identificar vulnerabilidades reales y evitar falsos positivos. Ideal para desarrolladores y profesionales de seguridad.

¿Cómo funciona MOSS-SoundEffect v2.0?
Explora MOSS-SoundEffect v2.0, el modelo de texto a audio que revoluciona la generación de efectos de sonido. Aprende sobre su arquitectura Diffusion Transformer, el uso de Flow Matching, y cómo genera audio de 48 kHz controlable en duración y multilingüe.

El Techo de la Recursión en LLM es un Mito: NovaSky lo Demuestra
Descubre cómo NovaSky-AI/SkyRL rompe las limitaciones de los LLM con su innovadora implementación de Modelos de Lenguaje Recursivos (RLM). Mediante agentes hijos que razonan en sandboxes de Python con estado, ejecutan código y consultan submodelos, SkyRL convierte entornos planos en árboles de razonamiento multi-agente, marcando un antes y un después en la IA.

Z-Anime: Fine-Tune Completo para Generación Anime sobre Z-Image Base
Z-Anime es un fine-tune completo (no LoRA) de la arquitectura Z-Image Base de Alibaba, adaptado a la generación de estilo anime. Incluye variantes Base, Distill-8-Step y Distill-4-Step en formatos BF16, FP8, GGUF y AIO, con soporte para 8GB VRAM, prompting en lenguaje natural y compatibilidad con LoRA.

GTIG revela cómo los adversarios usan IA para vulnerabilidades y operaciones
El último informe del Google Threat Intelligence Group detalla cómo actores estatales y criminales usan IA para descubrir vulnerabilidades, generar exploits, evadir defensas y automatizar operaciones maliciosas.