Código Abierto
Page 1 of 5

SwiftVR: Restauración de Video Generativa en Tiempo Real para GPU de Consumo
SwiftVR es un marco de restauración de video generativa de un solo paso diseñado para transmisiones en vivo. Aborda cuellos de botella en GPU de consumo con atención de ventana desplazada sin máscaras y un autoencoder ligero, logrando 26 FPS a 1080p en una RTX 5090 y 14 FPS a 4K en una H100.

dots.tts: Modelo Fundacional de Texto-a-Voz Autoregresivo Continuo de 2B Parámetros
Presentamos dots.tts, un modelo de texto-a-voz autoregresivo continuo de 2B parámetros con un espacio latente continuo. Destaca por su AudioVAE multiobjetivo, condicionamiento de historial completo y post-entrenamiento autocorrector, logrando un rendimiento líder en Seed-TTS-Eval y benchmarks de código abierto.

q0: Primitivas para el Preentrenamiento Hiper-Época en Modelos de Lenguaje
Investigadores de 1Q Labs y Princeton University presentan q0, un enfoque de preentrenamiento hiper-época que convierte el presupuesto multi-época en una población de modelos. Esto logra una pérdida de validación menor y una eficiencia de datos hasta 12.9 veces mayor en comparación con modelos únicos.

SkillOpt: Optimización de Habilidades para Agentes de IA
SkillOpt de Microsoft Research es un optimizador de texto que entrena descripciones de habilidades en lenguaje natural como un estado externo entrenable para agentes congelados. Probado por @omarsar0, mejoró la extracción de figuras de documentos en un 20%, demostrando un marco de prueba y autoevolución para habilidades de agentes.

Experimento de Generación de Imágenes IA con Prompts de Emojis en r/ChatGPT
Un usuario de r/ChatGPT comparte un experimento de generación de imágenes IA utilizando únicamente prompts de emojis, obteniendo resultados "sorprendentemente buenos". La publicación incluye ejemplos de prompts y la respuesta del AutoModerator con instrucciones para la comunidad.

NAVA: Generación Audio-Video Sincronizada y Nativa con Alineación MMDiT
NAVA es un generador conjunto de audio-video de 6.3B parámetros que sintetiza video y audio sincronizados a partir de un único prompt. Utiliza un MMDiT de "Alinear-y-Fusionar" para establecer correspondencia audio-video, permitiendo generación rápida de 720p, audio estéreo de doble canal y control preciso de timbre multi-locutor.

Cómo ProwlFi Otorga Confidencialidad a Agentes IA en Solana
ProwlFi proporciona infraestructura para agentes IA basados en Solana, ofreciendo confidencialidad transaccional sin sacrificar la auditabilidad. Combina direcciones sigilosas de un solo uso con pagos HTTP x402 para que cada pago llegue a una dirección fresca e inenlazable, mientras el operador conserva una clave de visualización para un rastro de auditoría privado y completo.

Qué es LFM2.5-8B-A1B: Modelos Híbridos para Despliegue en Dispositivo
LFM2.5-8B-A1B es un modelo híbrido diseñado para el despliegue en dispositivos, ofreciendo rendimiento competitivo con modelos más grandes. Ideal para asistentes personales, encadenamiento de herramientas y tareas de agente, con soporte para vLLM, llama.cpp y MLX.

Munder Difflin: La Oficina que la IA Replicó, ¿Pero Mejoró?
Munder Difflin es un sistema multi-agente de código abierto inspirado en la serie "The Office". Este software busca redefinir la colaboración y la gestión de tareas empresariales a través de la inteligencia artificial, ofreciendo una solución innovadora para la automatización y optimización de flujos de trabajo.

¿Es la memoria de ChatGPT un obstáculo para la productividad?
La nueva función de memoria de ChatGPT, que genera resúmenes automáticos de conversaciones, genera controversia en r/ChatGPT. Usuarios reportan intrusión, irrelevancia y problemas en proyectos estructurados, cuestionando su utilidad y control.

Science Superpowers: Cómo un agente de IA se convierte en un colaborador científico disciplinado
Science Superpowers transforma agentes de IA en colaboradores científicos disciplinados mediante un flujo de trabajo riguroso y pre-registrado. Evita el p-hacking y HARKing, asegura la reproducibilidad y verifica los resultados, reimplementando la metodología Superpowers para la investigación computacional.

UNISON: Generación y Edición Unificada de Sonido con Fusión de LLM Profundo
UNISON es un marco unificado de flujo de coincidencia latente para la generación y edición de audio y voz. Utilizando un único conjunto de pesos, integra texto a audio, texto a voz, clonación de hablantes, generación de escenas mixtas y edición de audio/voz en un solo modelo y arquitectura.