Código Abierto

Page 1 of 5

Un marco innovador que supera los desafíos de atención espacial y latencia para transmisiones en vivo 1080p y 4K.

SwiftVR: Restauración de Video Generativa en Tiempo Real para GPU de Consumo

SwiftVR es un marco de restauración de video generativa de un solo paso diseñado para transmisiones en vivo. Aborda cuellos de botella en GPU de consumo con atención de ventana desplazada sin máscaras y un autoencoder ligero, logrando 26 FPS a 1080p en una RTX 5090 y 14 FPS a 4K en una H100.

Innovaciones en espacio latente continuo, condicionamiento de historial completo y post-entrenamiento autocorrector para una calidad de voz superior y eficiencia.

dots.tts: Modelo Fundacional de Texto-a-Voz Autoregresivo Continuo de 2B Parámetros

Presentamos dots.tts, un modelo de texto-a-voz autoregresivo continuo de 2B parámetros con un espacio latente continuo. Destaca por su AudioVAE multiobjetivo, condicionamiento de historial completo y post-entrenamiento autocorrector, logrando un rendimiento líder en Seed-TTS-Eval y benchmarks de código abierto.

Un cambio conceptual hacia la exploración de poblaciones de modelos para optimizar el uso del cómputo en regímenes de datos limitados.

q0: Primitivas para el Preentrenamiento Hiper-Época en Modelos de Lenguaje

Investigadores de 1Q Labs y Princeton University presentan q0, un enfoque de preentrenamiento hiper-época que convierte el presupuesto multi-época en una población de modelos. Esto logra una pérdida de validación menor y una eficiencia de datos hasta 12.9 veces mayor en comparación con modelos únicos.

Microsoft Research presenta una metodología para entrenar descripciones de habilidades en lenguaje natural, validada por una mejora del 20% en la extracción de figuras.

SkillOpt: Optimización de Habilidades para Agentes de IA

SkillOpt de Microsoft Research es un optimizador de texto que entrena descripciones de habilidades en lenguaje natural como un estado externo entrenable para agentes congelados. Probado por @omarsar0, mejoró la extracción de figuras de documentos en un 20%, demostrando un marco de prueba y autoevolución para habilidades de agentes.

Análisis de resultados sorprendentes y la interacción de la comunidad con la creatividad basada en emoji para DALL-E 3.

Experimento de Generación de Imágenes IA con Prompts de Emojis en r/ChatGPT

Un usuario de r/ChatGPT comparte un experimento de generación de imágenes IA utilizando únicamente prompts de emojis, obteniendo resultados "sorprendentemente buenos". La publicación incluye ejemplos de prompts y la respuesta del AutoModerator con instrucciones para la comunidad.

Descubre NAVA, el generador de audio-video de 6.3B parámetros que sintetiza contenido sincronizado de 720p en minutos, con audio de doble canal y control preciso de timbre multi-locutor.

NAVA: Generación Audio-Video Sincronizada y Nativa con Alineación MMDiT

NAVA es un generador conjunto de audio-video de 6.3B parámetros que sintetiza video y audio sincronizados a partir de un único prompt. Utiliza un MMDiT de "Alinear-y-Fusionar" para establecer correspondencia audio-video, permitiendo generación rápida de 720p, audio estéreo de doble canal y control preciso de timbre multi-locutor.

Implementación de direcciones sigilosas de un solo uso y pagos HTTP x402 para transacciones privadas y auditables.

Cómo ProwlFi Otorga Confidencialidad a Agentes IA en Solana

ProwlFi proporciona infraestructura para agentes IA basados en Solana, ofreciendo confidencialidad transaccional sin sacrificar la auditabilidad. Combina direcciones sigilosas de un solo uso con pagos HTTP x402 para que cada pago llegue a una dirección fresca e inenlazable, mientras el operador conserva una clave de visualización para un rastro de auditoría privado y completo.

Descubre LFM2.5, la nueva familia de modelos híbridos optimizados para asistentes personales en tiempo real y rendimiento de inferencia sin precedentes.

Qué es LFM2.5-8B-A1B: Modelos Híbridos para Despliegue en Dispositivo

LFM2.5-8B-A1B es un modelo híbrido diseñado para el despliegue en dispositivos, ofreciendo rendimiento competitivo con modelos más grandes. Ideal para asistentes personales, encadenamiento de herramientas y tareas de agente, con soporte para vLLM, llama.cpp y MLX.

Un sistema multi-agente de código abierto inspirado en la serie redefine la colaboración y la gestión de tareas, desafiando los paradigmas tradicionales del trabajo.

Munder Difflin: La Oficina que la IA Replicó, ¿Pero Mejoró?

Munder Difflin es un sistema multi-agente de código abierto inspirado en la serie "The Office". Este software busca redefinir la colaboración y la gestión de tareas empresariales a través de la inteligencia artificial, ofreciendo una solución innovadora para la automatización y optimización de flujos de trabajo.

Análisis de la nueva función de resumen automático y su impacto en la experiencia del usuario y la gestión de proyectos.

¿Es la memoria de ChatGPT un obstáculo para la productividad?

La nueva función de memoria de ChatGPT, que genera resúmenes automáticos de conversaciones, genera controversia en r/ChatGPT. Usuarios reportan intrusión, irrelevancia y problemas en proyectos estructurados, cuestionando su utilidad y control.

Guía práctica para implementar un flujo de trabajo riguroso y pre-registrado en la investigación computacional, evitando sesgos y garantizando la reproducibilidad.

Science Superpowers: Cómo un agente de IA se convierte en un colaborador científico disciplinado

Science Superpowers transforma agentes de IA en colaboradores científicos disciplinados mediante un flujo de trabajo riguroso y pre-registrado. Evita el p-hacking y HARKing, asegura la reproducibilidad y verifica los resultados, reimplementando la metodología Superpowers para la investigación computacional.

Un marco latente de flujo de coincidencia para audio y voz, integrando múltiples tareas en un solo modelo.

UNISON: Generación y Edición Unificada de Sonido con Fusión de LLM Profundo

UNISON es un marco unificado de flujo de coincidencia latente para la generación y edición de audio y voz. Utilizando un único conjunto de pesos, integra texto a audio, texto a voz, clonación de hablantes, generación de escenas mixtas y edición de audio/voz en un solo modelo y arquitectura.