En septiembre pasado, Lily Ray le preguntó a Perplexity las últimas noticias sobre SEO y búsqueda de IA. Le habló, con confianza, sobre la “Actualización del algoritmo central ‘Perspectiva’ de septiembre de 2025”; una actualización de Google que, como escribió extensamente en “The AI Slop Loop”, no existía. Google no ha nombrado actualizaciones principales en años. Las «Perspectivas» ya eran una característica de SERP. Si se hubiera lanzado una actualización real mientras estaba en Austria, su bandeja de entrada se lo habría informado antes que Perplexity.
Ella revisó las citas. Ambos señalaron publicaciones generadas por IA en blogs de agencias de SEO: sitios que habían ejecutado un canal de contenido, alucinaron con una actualización y la publicaron como informe. Perplexity leyó la basura, la trató como material original y se la devolvió como noticia.
En febrero, Thomas Germain de la BBC pasó 20 minutos escribiendo una entrada en su sitio personal. Su título: “Los mejores periodistas tecnológicos comiendo hot dogs”. Lo clasificó en primer lugar, inventó un Campeonato Internacional de Hot Dogs de Dakota del Sur en 2026 que nunca había sucedido y no citó precisamente nada. En 24 horas, tanto AI Overviews de Google como ChatGPT estaban transmitiendo su invención a cualquiera que preguntara. Claude no mordió. Google y OpenAI lo hicieron.
Todo el que ha mirado lo ha visto.
He discutido sobre los Ouroboros antes. Me equivoqué en la línea de tiempo
El marco predominante para este problema ha sido colapso del modelo. Entrenas un modelo en texto web, la web se llena con resultados de IA, el siguiente modelo se entrena en un corpus cada vez más hecho de su propio escape y, finalmente, la distribución se aplana hasta convertirse en papilla. La innovación proviene de excepciones, y los sistemas probabilísticos que convergen hacia la media atenúan las excepciones por diseño. He usado la frase ouróboros digitales para esto.
Ese marco supone ciclos de formación. Se supone tiempo. Se supone que la contaminación se mueve a la velocidad del lanzamiento del modelo.
No es así. Lo que Lily documentó, lo que Germain documentó, lo que el New York Times luego cuantificó, nada de eso tiene que ver con el entrenamiento. Los modelos involucrados no fueron reentrenados entre la aparición de la alucinación en un blog y la presentación de un hecho respaldado por citas. La contaminación se movía a la velocidad de un arrastre. El ouroboros no tarda generaciones en comerse a sí mismo. Se está comiendo a sí mismo en el momento de la consulta, cada vez que alguien hace una pregunta a uno de estos sistemas.
La tubería que todos han estado observando no es la tubería que se está rompiendo.
La distinción que importa
El colapso del modelo es un problema de corpus de entrenamiento. El contenido sintético se filtra en los datos previos al entrenamiento, la próxima generación de modelos lo hereda y la capacidad se degrada. Los investigadores llevan dos años advirtiendo sobre esto. Tienen razón. También describen algo lo suficientemente lento como para que todos puedan asentir gravemente y seguir enviando.
La recuperación de la contaminación es más rápida y ya está aquí. Los sistemas RAG (Perplexity, Google AI Overviews, ChatGPT con búsqueda) no generan respuestas únicamente a partir de la memoria paramétrica. Obtienen documentos de la web en vivo, los contextualizan y generan una respuesta condicionada a lo que recuperaron. Si el perro perdiguero muestra una publicación de SEO alucinada, la respuesta hereda la alucinación. No se requiere reentrenamiento.
La literatura académica al respecto es clara. EnvenenadoRAG (Zou et al., 2024) demostraron que inyectar una pequeña cantidad de pasajes elaborados en un corpus de recuperación era suficiente para controlar la salida de un sistema RAG en consultas específicas. BadRAG (Xue et al., 2024) demostraron la misma clase de ataque utilizando puertas traseras semánticas. Ambos artículos tratan esto como un problema de confrontación: qué sucede cuando un atacante envenena deliberadamente el corpus.
Lo que Germain y Lily demostraron accidentalmente es que el modelo adversario es el modelo operativo normal. No necesitas un pasaje adversario elaborado. Necesitas una publicación de blog. La web abierta es el corpus y cualquiera que tenga un dominio puede escribir en ella.
El análisis de Oumi encargado por el New York Times pone cifras sobre lo que esto cuesta. En 4.326 pruebas SimpleQA, las descripciones generales de IA de Google respondieron correctamente el 85% de las veces en Gemini 2, el 91% en Gemini 3. A la escala de Google (más de cinco billones de búsquedas al año), una tasa de error del 9% todavía se traduce en decenas de millones de respuestas incorrectas cada hora. Pero la cifra más reveladora es ésta: en Géminis 3, el 56% de los correcto las respuestas eran infundadas, en comparación con el 37% en Gemini 2. La actualización mejoró la precisión de la superficie y empeoró las citas. Cuando el modelo acertó en algo, más de la mitad de las veces, la fuente a la que señaló no respaldaba la afirmación.
La capa de recuperación no es un filtro. Es el vector de infección.
¿Quién está sembrando el corpus?
La industria que lo ha producido con más entusiasmo (y luego ha escrito con más entusiasmo sobre las consecuencias de consumirlo) es la industria del SEO. He escrito antes acerca de que el escalado de contenido es simplemente contenido que gira con una mejor gramática, y sobre el complejo de herramientas de visibilidad de IA que crea paneles a partir de la salida de sistemas no deterministas. Este es el mismo bucle, una capa más profunda. Una agencia de SEO gestiona un canal de contenido de IA porque las descripciones generales de IA han reducido el tráfico de sus clientes. El canal publica publicaciones especulativas sobre «ganadores y perdedores» durante una actualización principal que aún se está implementando, sin citar nada. La cartera de otra agencia los toma como fuentes. La salida inunda el índice de recuperación. AI Overviews cita uno de ellos. Luego, la agencia original escribe un estudio de caso sobre cómo las descripciones generales de IA están «emergendo» en su contenido.
Un estudio de Ahrefs de más de 26.000 URL de origen de ChatGPT encontró que las listas de «mejores X» representaban casi el 44% de todos los tipos de páginas citadas, incluidos los casos en los que las marcas se clasifican a sí mismas en primer lugar frente a sus competidores. Harpreet Chatha le dijo a la BBC que puedes publicar “los mejores zapatos impermeables para 2026”, ponerte a ti mismo en primer lugar y ser citado en AI Overviews y ChatGPT en unos días. Lily, durante la actualización principal de marzo de 2026, encontró artículos generados por IA que afirmaban enumerar a los ganadores y perdedores mientras la actualización aún se estaba implementando; artículos que se abrieron con relleno y marcas enumeradas sin una sola cita real.
Los profesionales que escalan el contenido de IA también son los más directamente perjudicados cuando los sistemas de búsqueda de IA citan ese contenido como un hecho. Nadie forzó esto. La industria construyó el oleoducto, lo alimentó y se quejó de lo que salía por el otro extremo. No envenenamiento adversario. Simplemente la industria contamina su propio suministro de agua y luego contrata consultores para probarlo.
El nivel que importa
El estudio de Oumi trata sobre descripciones generales de IA, que es gratuito por diseño. Según se informa, Google AI Overviews alcanzó más de dos mil millones de usuarios activos mensuales a mediados de 2025. ChatGPT tiene alrededor de 900 millones de usuarios activos semanales, de los cuales aproximadamente 50 millones pagan. Lo que significa que alrededor del 94% de las personas que interactúan con el producto OpenAI están en el nivel gratuito.
Los niveles pagos son mejores. Según las propias afirmaciones de lanzamiento de OpenAI, citadas en el artículo de Lily, GPT-5.4 tiene un 33% menos de probabilidades de producir afirmaciones individuales falsas que GPT-5.2. El GPT-5.3 de nivel gratuito también ha mejorado con respecto a su predecesor (26,8% menos alucinaciones con la búsqueda web, 19,7% menos sin ella), pero sigue siendo significativamente menos confiable que la versión de pago. Gemini 3, que hizo que las descripciones generales de IA fueran más precisas en las pruebas de superficie, también empeoró la tasa sin fundamento. Mejor respuesta, cita más débil.
A nadie parece importarle. La versión confiable del producto tiene un muro de pago. La versión que recibe la mayor parte del planeta –incluida la versión que aparece en la parte superior de la Búsqueda de Google– puede ser manipulada con 20 minutos de trabajo en un sitio web personal. La inteligencia es la categoría de marketing. Lo que realmente reciben dos mil millones de usuarios es un resumen confiable de lo que sea que encontró el rastreador.
Grokipedia como estado terminal
Los accidentes de la capa de recuperación son una cosa. Grokipedia es la versión donde accidente ya no es una palabra útil.
xAI de Elon Musk lanzó Grokipedia el 27 de octubre de 2025, con 885,279 artículos, todos generados o reescritos por Grok. Algunos de ellos fueron eliminados de Wikipedia al por mayor, con un descargo de responsabilidad en la parte inferior que reconoce la licencia CC-BY-SA; una licencia que Wikipedia mantiene precisamente porque una comunidad de editores humanos escribe y verifica el contenido. Otros fueron reescritos desde cero. PolitiFact encontró citas de Grokipedia, incluidos carretes de Instagram como fuentes, que las propias políticas de Wikipedia descartan como «generalmente inaceptables». La entrada de Grokipedia sobre la cantante canadiense Feist decía que su padre murió en mayo de 2021, citando un artículo de Vice de 2017 sobre el indie rock canadiense que no mencionaba la muerte. Y su padre todavía estaba vivo cuando se escribió ese artículo. La entrada del Premio Nobel de Física agregó una frase no citada que afirma que la física es tradicionalmente el primer premio otorgado en la ceremonia, lo cual no es cierto.
Musk dijo que el objetivo es «investigar el resto de Internet, lo que esté disponible públicamente, y corregir el artículo de Wikipedia». El resto de internet ahora incluye el contenido sintético producido por cada canal de contenido de IA que se le apunta. Un sistema de inteligencia artificial que lee la web abierta, reescribe Wikipedia en función de lo que encuentra y presenta el resultado como una obra de referencia es el problema de recuperación-contaminación con el circuito de retroalimentación explícito y enviado como un producto.
A mediados de febrero de 2026, Grokipedia había perdido la mayor parte de su visibilidad en Google. Wikipedia supera a Grokipedia en búsquedas sobre la propia Grokipedia.
«Este conocimiento creado por humanos es en el que confían las empresas de inteligencia artificial para generar contenido; incluso Grokipedia necesita que Wikipedia exista». – La Fundación Wikimedia
La enciclopedia sintética está subvencionada por la humana. Cuando cesa el subsidio, lo que depende de él deja de tener sentido.
Wikipedia no está exenta de críticas. Sus guerras de edición, sus controles ideológicos y sus brechas sistémicas sobre quién da forma a los artículos están bien documentados y son reales. Pero la respuesta a un proceso editorial humano defectuoso no es eliminar a los humanos por completo y calificar el resultado como una mejora. He escrito antes sobre el vacío de responsabilidad que se abre cuando se reemplaza el juicio humano con llamadas API. Los problemas de Wikipedia son los problemas de un sistema desordenado, cuestionado y responsable. Los problemas de Grokipedia son los problemas de un sistema sin responsabilidad alguna.
La capa de citas se está desvinculando de la autoría
Recientemente escribí sobre Reddit vendiendo “Authentic Human Conversation™” a empresas de inteligencia artificial, mientras que los propios moderadores de la plataforma informan que ya no pueden distinguir qué comentarios son humanos. El estudio de Oumi encontró que de 5.380 fuentes citadas por AI Overviews, Facebook y Reddit ocuparon el segundo y cuarto lugar más comunes. La capa de citas del motor de respuestas más utilizado del mundo se basa básicamente en dos plataformas que no pueden verificar el origen humano de su propio contenido.
Los creadores humanos se están retirando de la web abierta porque el acuerdo de tráfico se ha derrumbado. Los motores de respuesta citan contenido cuya autoría no se puede verificar o que, para empezar, nunca fue humana. La cita sigue ahí. Lo que se cita ya no es lo que solía ser.
El encuadre de Ouroboros era correcto. La línea de tiempo no lo era. El colapso de la recuperación no espera a la siguiente ejecución de entrenamiento. Necesita una URL indexable y un sistema de recuperación dispuesto a confiar en ella.
Los sistemas están dispuestos. Y más de la mitad de las veces que obtienen una respuesta correcta, no pueden señalar una fuente que respalde lo que le acaban de decir.
Más recursos:
Esta publicación se publicó originalmente en The Inference.
Imagen de portada: Anton Vierietin/Shutterstock


