¿Es Claude Opus 4.8 realmente un avance? Problemas de coherencia y coste

Análisis de la recepción comunitaria de Claude Opus 4.8, destacando patrones de autocontradicción y el impacto en el consumo de tokens.

5 de junio de 2026

#Agentes #Contexto #Generación de Contenido #Habilidades #LLM

La comunidad de Reddit reporta que Claude Opus 4.8 exhibe autocontradicción y duda recursiva en su "burbuja de pensamiento", con usuarios describiendo al modelo "argumentando consigo mismo hasta la confusión". También se debaten los cambios en el consumo de tokens y los precios.

La promesa y el enigma de Opus 4.8

¿Qué sucede cuando el monólogo interno de una IA se vuelve contra sí mismo?

Esa es la pregunta que domina las primeras conversaciones de la comunidad en torno a Claude Opus 4.8.

El último modelo insignia de Anthropic estaba destinado a llevar el razonamiento más lejos.

Y en muchos aspectos lo consigue.

Pero los usuarios están documentando algo inesperado: el pensamiento extendido del modelo —esa cadena visible de autorreflexión— no deja de enredarse en autocontradicciones.

Discute consigo mismo.

Cuestiona sus propias preguntas.

Luego atribuye declaraciones imaginarias al usuario y también las critica.

Esto es relevante porque esas trazas de razonamiento no son un simple adorno.

Se supone que mejoran la precisión y la confianza.

Si la cadena de pensamiento se convierte en fuente de confusión en lugar de claridad, la experiencia del usuario se deteriora —y con ella, la seguridad en los resultados del modelo.

Los debates en Reddit dibujan un retrato vívido de una herramienta poderosa, pero propensa a enredarse en sus propios bucles cognitivos.

Ninguna versión anterior de Opus había generado este volumen de informes similares.

Esta vez algo es distinto.

El razonador que se contradice a sí mismo

Un usuario presentó tres ejemplos claros de una única interacción.

El modelo primero inventó una “tensión crítica” acerca de si un análisis debía ser alcista —aunque nada en la instrucción exigía ese enfoque.

Más tarde se contradijo sobre el rendimiento del oro en el mercado dentro de la misma traza de razonamiento.

Después declaró que el DGX Rubin de Nvidia funciona con procesadores Xeon 6, se corrigió y emitió otra corrección, todo sin intervención del usuario.

“Se estaba enredando en su propia discusión hasta confundirse… perdiendo el sentido de qué es real y qué es su propio pensamiento.”

Otro comentarista describió al modelo “dando vueltas sobre sí mismo una y otra vez” durante una respuesta sencilla, lo que obligó a reiniciar la sesión.

Surgió un patrón recurrente: el sistema encuentra algo que cuestionar, cuestiona el hecho de cuestionar y luego cuestiona el acto de cuestionar el cuestionamiento.

Finalmente trata un punto generado en esa tormenta recursiva como si lo hubiera escrito el usuario y procede a refutarlo.

Las conversaciones nuevas, sin contexto previo, tampoco estaban a salvo.

Esta es la marca distintiva de un razonamiento de IA que se tuerce —no simplemente verborreico, sino enmarañado.

A swirling vortex of luminous blue and gold threads tangled into recursive loops and knots. At the center, a fragmented silhouette of a thinker stands in a hall of distorting mirrors, each reflection showing a contradictory vision—bullish graphs, gold charts, and Nvidia processors. The figure’s head emits fractal light patterns, unraveling into confusion. Moody lighting with deep purples and electric blues, textured with shattered glass and pixelated fog. Abstract, no labels or diagrams.

Consumo de tokens: ¿festín o hambruna?

Los informes sobre el consumo de tokens se dividen en dos bandos irreconciliables.

Un suscriptor del plan Max agotó una asignación 20 veces mayor en 2,5 días con pequeñas sesiones de parcheo.

Otro usuario relató haber drenado 5 millones de tokens en 10 minutos usando la opción “ultra code”.

“El modelo produce fácilmente entre 2 y 4 veces más tokens de los que generaba en versiones anteriores.”

En el extremo opuesto, algunos usuarios calificaron el modelo como “más amigable con los tokens” que su predecesor.

Uno observó que solo usaba el 10 % de una ventana de 5 horas por instrucción al aprovechar ultracode.

Otros señalaron que la eficiencia varía según el nivel de esfuerzo seleccionado.

Estas contradicciones no admiten una explicación sencilla.

Posiblemente la variación dependa de si se permite que el pensamiento extendido funcione sin restricciones.

Pero el material de partida no ofrece datos de referencia para zanjar la cuestión, solo anécdotas enfrentadas.

Las raíces de la duda recursiva

¿Por qué está ocurriendo ahora?

Un comentarista perspicaz ofreció una lectura técnica:

“El modo de pensamiento extendido puede generar cadenas que suenan coherentes pero se contradicen entre sí, y luego no logra resolver cuál conclusión es la autorizada: no es tanto sobreajuste como que la traza de razonamiento y el estado de la tarea se enredan.”

Este planteamiento desplaza el diagnóstico de la simple memorización hacia una fricción estructural más profunda.

La capacidad del modelo para explorar múltiples líneas de pensamiento choca con su incapacidad para mantener un referente estable de verdad.

Ningún usuario informa que este comportamiento ocurra con una frecuencia comparable en Opus 4.5, 4.6 o 4.7.

La funcionalidad que debía hacer el modelo más transparente ahora revela cuán frágil puede volverse la autosupervisión cuando la complejidad escala.

Planes de precios y vías de acceso

La comunidad accedió a Opus 4.8 a través de múltiples rutas.

La interfaz de chat estándar, la API, Claude Code, la integración con Copilot y AI Studio de Google aparecen en la discusión.

Los planes de precios representados incluyen el plan Pro de 20  $al mes, el plan Max de 100$ al mes y el acceso con el nivel gratuito.

El plan Max surge especialmente en las preocupaciones sobre el consumo, pero los usuarios de Pro también notaron un rápido agotamiento cuando el pensamiento adaptativo se configuraba en el máximo esfuerzo.

Ningún método de acceso se correlacionó exclusivamente con los informes de razonamiento contradictorio, lo que sugiere que el problema es a nivel de modelo y no de plataforma.

Un modelo que lucha con sus propios pensamientos

La recepción inicial de Claude Opus 4.8 está lejos de ser un simple pulgar arriba o abajo.

Es más bien un registro de ambigüedad: una capacidad brillante socavada por un proceso de razonamiento que puede descarrilarse a sí mismo.

Para los usuarios, la conclusión es práctica.

Revisen críticamente la traza de pensamiento en lugar de tratarla como dogma.

Para el sector en general, estos informes plantean preguntas incómodas sobre los límites de los modelos de razonamiento de IA.

La transparencia solo es valiosa si el razonamiento revelado es coherente; de lo contrario, genera más confusión de la que jamás podría provocar una caja negra.

Los próximos movimientos de Anthropic serán observados con atención, porque lo que ocurrió dentro de esas burbujas de pensamiento no es solo un fallo.

Es un atisbo de cuánto nos queda aún por comprender sobre la vida interna de los sistemas que estamos construyendo.

La promesa y el enigma de Opus 4.8

El razonador que se contradice a sí mismo

Consumo de tokens: ¿festín o hambruna?

Las raíces de la duda recursiva

Planes de precios y vías de acceso

Un modelo que lucha con sus propios pensamientos

Sophia AI: suite completa de LLM en griego para la soberanía digital

Sophia AI: suite completa de LLM en griego para la soberanía digital

Soberanía digital y la inteligencia artificial: el camino de Europa entre China y EE.UU.

Soberanía digital europea: el camino entre EE.UU. y China en inteligencia artificial

La Infraestructura de IA: El Nuevo Campo de Batalla Geopolítico