Python

Page 1 of 1

Un marco innovador que supera los desafíos de atención espacial y latencia para transmisiones en vivo 1080p y 4K.

SwiftVR: Restauración de Video Generativa en Tiempo Real para GPU de Consumo

SwiftVR es un marco de restauración de video generativa de un solo paso diseñado para transmisiones en vivo. Aborda cuellos de botella en GPU de consumo con atención de ventana desplazada sin máscaras y un autoencoder ligero, logrando 26 FPS a 1080p en una RTX 5090 y 14 FPS a 4K en una H100.

Guía práctica para construir memoria persistente y estructurada sin dependencia de la nube, utilizando grafos de conocimiento.

mnemo: Capa de Memoria Local-First para LLMs

mnemo es una capa de memoria local-first para cualquier LLM, resolviendo la pérdida de contexto entre sesiones. Ofrece memoria persistente y estructurada sin dependencia de la nube, utilizando un grafo de conocimiento en SQLite y un servicio sidecar para la extracción y recuperación de entidades.

Innovaciones en espacio latente continuo, condicionamiento de historial completo y post-entrenamiento autocorrector para una calidad de voz superior y eficiencia.

dots.tts: Modelo Fundacional de Texto-a-Voz Autoregresivo Continuo de 2B Parámetros

Presentamos dots.tts, un modelo de texto-a-voz autoregresivo continuo de 2B parámetros con un espacio latente continuo. Destaca por su AudioVAE multiobjetivo, condicionamiento de historial completo y post-entrenamiento autocorrector, logrando un rendimiento líder en Seed-TTS-Eval y benchmarks de código abierto.

Transforma un juguete de escritorio en un indicador de estado inteligente para tu Cursor Agent y libera tu mirada.

Tu IA no necesita tu pantalla: ¡Un semáforo te lo dirá todo!

Descubre cómo convertir un semáforo de juguete en un "CursorLight", un indicador visual para tu Cursor Agent. Con un ESP32-C3 y un script Python, sabrás si tu IA está pensando, ocupada o ha terminado, sin tener que mirar la pantalla. ¡Haz que tu IA sea más intuitiva!

Descubre cómo MLLM-Jailbreak-Bench mide la vulnerabilidad de los LLM multimodales a ataques dañinos y cómo usarlo para mejorar su seguridad.

Qué es MLLM-Jailbreak-Bench y cómo evaluar la seguridad de LLM multimodales

Aprende sobre MLLM-Jailbreak-Bench, una herramienta esencial para evaluar la seguridad de los Modelos de Lenguaje Grandes Multimodales (MLLM). Entiende sus métricas clave como ASR, calidad de rechazo y error de calibración, y cómo utilizarlas para identificar vulnerabilidades reales y evitar falsos positivos. Ideal para desarrolladores y profesionales de seguridad.

Descubre la nueva generación de síntesis de efectos de sonido con Diffusion Transformer y Flow Matching para audio de alta fidelidad.

¿Cómo funciona MOSS-SoundEffect v2.0?

Explora MOSS-SoundEffect v2.0, el modelo de texto a audio que revoluciona la generación de efectos de sonido. Aprende sobre su arquitectura Diffusion Transformer, el uso de Flow Matching, y cómo genera audio de 48 kHz controlable en duración y multilingüe.

Modelos de Lenguaje Recursivos (RLM) de SkyRL permiten meta-razonamiento con agentes hijos en sandboxes de Python con estado, redefiniendo la capacidad de "pensar" de los modelos.

El Techo de la Recursión en LLM es un Mito: NovaSky lo Demuestra

Descubre cómo NovaSky-AI/SkyRL rompe las limitaciones de los LLM con su innovadora implementación de Modelos de Lenguaje Recursivos (RLM). Mediante agentes hijos que razonan en sandboxes de Python con estado, ejecutan código y consultan submodelos, SkyRL convierte entornos planos en árboles de razonamiento multi-agente, marcando un antes y un después en la IA.

Familia de modelos basada en S3-DiT con variantes optimizadas para calidad, velocidad y bajo consumo de VRAM

Z-Anime: Fine-Tune Completo para Generación Anime sobre Z-Image Base

Z-Anime es un fine-tune completo (no LoRA) de la arquitectura Z-Image Base de Alibaba, adaptado a la generación de estilo anime. Incluye variantes Base, Distill-8-Step y Distill-4-Step en formatos BF16, FP8, GGUF y AIO, con soporte para 8GB VRAM, prompting en lenguaje natural y compatibilidad con LoRA.

Amenazas de estados y ciberdelincuentes aprovechan la inteligencia artificial para explotación, evasión y acceso inicial

GTIG revela cómo los adversarios usan IA para vulnerabilidades y operaciones

El último informe del Google Threat Intelligence Group detalla cómo actores estatales y criminales usan IA para descubrir vulnerabilidades, generar exploits, evadir defensas y automatizar operaciones maliciosas.