La auditoría técnica de SEO estándar comprueba la rastreabilidad, la indexabilidad, la velocidad del sitio web, la compatibilidad con dispositivos móviles y los datos estructurados. Esa lista de verificación fue diseñada para un consumidor: el robot de Google.
Así ha sido siempre.
En 2026, su sitio web tendrá, al menos, una docena de consumidores no humanos adicionales. Los rastreadores de IA como GPTBot, ClaudeBot y PerplexityBot entrenan modelos y potencian los resultados de búsqueda de IA. Los agentes activados por el usuario, como el recientemente anunciado Google-Agent, o sus «hermanos» Claude-User y ChatGPT-User, navegan por sitios web en nombre de humanos específicos en tiempo real. Un análisis del primer trimestre de 2026 en la red de Cloudflare encontró que el 30,6% de todo el tráfico web ahora proviene de robots, y los rastreadores y agentes de IA representan una proporción cada vez mayor. Su auditoría técnica debe tener en cuenta todos ellos.
Aquí están las cinco capas que puede agregar a su auditoría técnica de SEO existente.
Capa 1: Acceso al rastreador de IA
Su robots.txt probablemente fue escrito para Googlebot, Bingbot y tal vez algunos scrapers. Los rastreadores de IA necesitan sus propias reglas de robots.txt y deben estar separados de Googlebot y Bingbot.
Qué comprobar
Revise su archivo robots.txt para conocer las reglas dirigidas a agentes de usuario específicos de IA: GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider, AppleBot-Extended, CCBot y ChatGPT-User. Si no aparece ninguno de estos, está utilizando valores predeterminados y es posible que esos valores predeterminados no reflejen lo que realmente desea. Nunca acepte los valores predeterminados a menos que sepa que son exactamente lo que necesita.
La clave es tomar una decisión consciente por rastreador en lugar de permitir o bloquear todo de manera general. No todos los rastreadores de IA tienen el mismo propósito. El tráfico de rastreadores de IA se puede dividir en tres categorías: rastreadores de entrenamiento que recopilan datos para el entrenamiento de modelos (89,4 % del tráfico de rastreadores de IA según los datos de Cloudflare), rastreadores de búsqueda que impulsan los resultados de búsqueda de IA (8 %) y agentes activados por el usuario como Google-Agent y ChatGPT-User que navegan en nombre de un humano específico en tiempo real (2,2 %). Cada categoría justifica una decisión diferente sobre robots.txt.
Las proporciones de rastreo a referencia del informe Radar de Cloudflare pueden hacer que esta sea una decisión informada para usted. ClaudeBot de Anthropic rastrea 20,6 mil páginas por cada referencia que devuelve. La proporción de OpenAI es 1300:1. Meta no envía referencias. Bloquear OAI-SearchBot o PerplexityBot de OpenAI reduce su visibilidad en ChatGPT Search y las respuestas de IA de Perplexity. Bloquear rastreadores centrados en la capacitación como CCBot o el rastreador de Meta evita la extracción de datos de un proveedor que no devuelve tráfico. Los índices de rastreo y referencia le indican quién recibe sin dar.
Hay un rastreador que requiere atención especial. Google agregó Google-Agent a su lista oficial de buscadores activados por usuarios el 20 de marzo de 2026. Google-Agent identifica solicitudes de sistemas de inteligencia artificial que se ejecutan en la infraestructura de Google y que navegan por sitios web en nombre de los usuarios. A diferencia de los rastreadores tradicionales, Google-Agent ignora robots.txt. La posición de Google es que, dado que un humano inició la solicitud, el agente actúa como un proxy del usuario en lugar de un rastreador autónomo. El bloqueo del Agente de Google requiere autenticación del lado del servidor, no reglas de robots.txt. Esto es interesante e importante para el futuro, incluso si no está dentro del alcance de este artículo.
Documentación oficial de cada rastreador:
Capa 2: Representación de JavaScript
El robot de Google procesa JavaScript utilizando Chromium sin cabeza. No hay nada nuevo en eso. Lo que es nuevo y diferente es que prácticamente todos los principales rastreadores de IA no procesan JavaScript.
| Tractor | Representa JavaScript |
|---|---|
| GPTBot (OpenAI) | No |
| ClaudeBot (antrópico) | No |
| PerplejidadBot | No |
| CCBot (rastreo común) | No |
| AppleBot | Sí |
| robot de Google | Sí |
AppleBot (que utiliza un renderizador basado en WebKit) y Googlebot son los únicos rastreadores importantes que renderizan JavaScript. Cuatro de los seis principales rastreadores web (GPTBot, ClaudeBot, PerplexityBot y CCBot) solo obtienen HTML estático, lo que hace que la representación del lado del servidor sea un requisito para la visibilidad de la búsqueda de IA, no una optimización. Si su contenido se encuentra en JavaScript del lado del cliente, es invisible para los rastreadores que entrenan los modelos de OpenAI, Anthropic y Perplexity y potencian sus productos de búsqueda de IA.
Qué comprobar
Correr curl -s (URL) en sus páginas críticas y busque en el resultado contenido clave como nombres de productos, precios o descripciones de servicios. Si ese contenido no está en la respuesta curl, GPTBot, ClaudeBot y PerplexityBot tampoco podrán verlo. Alternativamente, use Ver código fuente en su navegador (no Inspeccionar elemento, que muestra el DOM renderizado). después Ejecución de JavaScript) y compruebe si la información importante está presente en el HTML sin formato.

Las aplicaciones de una sola página (SPA) creadas con React, Vue o Angular corren un riesgo particular a menos que utilicen renderizado del lado del servidor (SSR) o generación de sitios estáticos (SSG). Un React SPA que presenta descripciones de productos, precios o afirmaciones clave completamente en el lado del cliente envía a los rastreadores de IA una página en blanco con un enlace al paquete de JavaScript.
La solución no es complicada. La renderización del lado del servidor (SSR), la generación de sitios estáticos (SSG) o la renderización previa resuelven este problema para todos los marcos principales. Next.js admite SSR y SSG de forma nativa para React, Nuxt proporciona lo mismo para Vue y Angular Universal maneja la renderización del servidor para aplicaciones Angular. La auditoría sólo necesita señalar qué páginas dependen del JavaScript del lado del cliente para el contenido crítico.
Capa 3: datos estructurados para IA
Los datos estructurados forman parte de las auditorías técnicas de SEO desde hace años, pero es necesario actualizar los criterios de evaluación. La pregunta ya no es simplemente «¿esta página tiene marcado de esquema?» Es «¿este marcado ayuda a los sistemas de inteligencia artificial a comprender y citar este contenido?»
Qué comprobar
- Implementación de JSON-LD (preferida a Microdata y RDFa para el análisis de IA).
- Tipos de esquemas que van más allá de lo básico: organización, artículo, producto, preguntas frecuentes, instrucciones, persona.
- Relaciones entre entidades: conexiones iguales, de autor y de editor que vinculan su contenido con entidades conocidas.
- Integridad: ¿están completadas todas las propiedades relevantes o simplemente está marcando una casilla utilizando esquemas esqueléticos con nombre y URL?
Por qué esto importa ahora
El director de producto principal de Bing de Microsoft, Fabrice Canel, confirmó en marzo de 2025 que el marcado de esquema ayuda a los LLM a comprender el contenido de Copilot. El equipo de Búsqueda de Google afirmó en abril de 2025 que los datos estructurados ofrecen una ventaja en los resultados de búsqueda.
No, no se puede ganar sólo con el esquema. Sí, puede ayudar.
El ángulo de la densidad de datos también importa. El artículo de investigación GEO de Princeton, Georgia Tech, el Instituto Allen de IA y el IIT Delhi (presentado en ACM KDD 2024, el primero en utilizar públicamente el término «GEO») encontró que agregar estadísticas al contenido mejoraba la visibilidad de la IA en un 41%. El análisis de Yext encontró que los sitios web ricos en datos obtienen 4,3 veces más citas de IA que los listados de estilo directorio. Los datos estructurados contribuyen a la densidad de los datos al proporcionar a los sistemas de inteligencia artificial hechos legibles por máquinas en lugar de exigirles que extraigan significado de la prosa.
Una advertencia importante: todavía no existen estudios académicos revisados por pares sobre el impacto del esquema en las tasas de citas de IA específicamente. Los datos de la industria son prometedores y consistentes, pero trate estas cifras como indicadores en lugar de garantías.
W3Techs informa que aproximadamente el 53% de los 10 millones de sitios web principales utilizan JSON-LD a principios de 2026. Si su sitio web no se encuentra entre ellos, se está perdiendo las señales que utilizan los sistemas de búsqueda tradicionales y de IA para comprender su contenido.
Duane Forrester, quien ayudó a crear Bing Webmaster Tools y co-lanzó Schema.org, sostiene que el marcado de esquema es sólo el primer paso. A medida que los agentes de IA continúen pasando de simplemente interpretar páginas a tomar decisiones, las marcas también necesitarán publicar la verdad operativa (precios, políticas, restricciones) en formatos verificables por máquina con control de versiones y firmas criptográficas. La publicación de paquetes fuente verificables por máquina está más allá del alcance de una auditoría estándar hoy en día, pero auditar la integridad y precisión de los datos estructurados es la base sobre la que se basan los paquetes fuente verificados.
Capa 4: HTML semántico y árbol de accesibilidad
Las primeras tres capas de la auditoría de preparación de la IA cubren el acceso de los rastreadores (robots.txt), la representación de JavaScript y los datos estructurados. Los dos últimos abordan cómo los agentes de IA leen realmente sus páginas y qué señales les ayudan a descubrir y evaluar su contenido.
La mayoría de los SEO evalúan HTML para el consumo de motores de búsqueda. Los navegadores agentes como ChatGPT Atlas, Chrome con navegación automática y Perplexity Comet no analizan páginas como lo hace el robot de Google. En su lugar, leen el árbol de accesibilidad.
El árbol de accesibilidad es una representación paralela de su página que los navegadores generan a partir de su HTML. Elimina el estilo visual, el diseño y la decoración, manteniendo solo la estructura semántica: encabezados, enlaces, botones, campos de formulario, etiquetas y las relaciones entre ellos. Lectores de pantalla como VoiceOver y NVDA han utilizado el árbol de accesibilidad durante décadas para hacer que los sitios web sean utilizables para personas con discapacidad visual. Los agentes de IA ahora utilizan el mismo árbol para comprender las páginas web e interactuar con ellas.
Y la razón es simple: eficiencia. Procesar capturas de pantalla es más caro y más lento que trabajar con el árbol de accesibilidad.

Esto es importante porque el árbol de accesibilidad expone lo que realmente comunica su HTML, no cómo lo hace lucir su CSS (o JS). A
Microsoft’s Playwright MCP, the standard tool for connecting AI models to browser automation, uses accessibility snapshots rather than raw HTML or screenshots. Playwright MCP’s browser_snapshot La función devuelve una representación de árbol de accesibilidad porque es más compacta y semánticamente significativa para los LLM. La documentación de OpenAI indica que ChatGPT Atlas utiliza etiquetas ARIA para interpretar la estructura de la página cuando navega por sitios web.
La accesibilidad web y la compatibilidad con agentes de IA son ahora la misma disciplina. La jerarquía de encabezados adecuada (H1-H6) crea secciones significativas que los sistemas de inteligencia artificial utilizan para la extracción de contenido. Elementos semánticos como
, ,
y
decirle a las máquinas qué papel juega cada bloque de contenido. Las etiquetas de los formularios y el texto descriptivo de los botones hacen que los elementos interactivos sean comprensibles para los agentes que analizan el árbol de accesibilidad en lugar de representar el diseño visual.
Qué comprobar
- Jerarquía de encabezados: estructura lógica H1-H6 que las máquinas pueden utilizar para comprender las relaciones de contenido.
- Elementos semánticos: navegación, principal, artículo, sección, aparte, encabezado, pie de página, utilizados adecuadamente.
- Entradas de formulario: cada entrada tiene una etiqueta, cada botón tiene un texto descriptivo.
- Elementos interactivos: uso de cosas en las que se puede hacer clic
ono.- Accessibility tree: run a Playwright MCP snapshot or test with VoiceOver/NVDA to see what agents actually see.
Somehow, things are getting worse on this front. The WebAIM Million 2026 report found that the average web page now has 56.1 accessibility errors, up 10.1% from 2025.
ARIA (Accessible Rich Internet Applications) usage increased 27% in a single year. ARIA is a set of HTML attributes that add extra semantic information to elements, telling screen readers and AI agents things like “this div is actually a dialog” or “this list functions as a menu.” But what’s critical is this: pages with ARIA present had significantly more errors (59.1 on average) than pages without ARIA (42 on average). Adding ARIA without understanding it makes things worse, not better, because incorrect ARIA overrides the browser’s default accessibility tree interpretation with wrong information. Start with proper semantic HTML. Add ARIA only when native elements aren’t sufficient.
Technical SEOs do not need to become accessibility experts. But treating accessibility as someone else’s problem is no longer viable when the same tree that screen readers parse is now the primary interface between AI agents and your website.
Sidenote: The Markdown Shortcut Doesn’t Work
Serving raw markdown files to AI crawlers instead of HTML can result in a 95% reduction in token usage per page. However, Google Search Advocate John Mueller called this “a stupid idea” in February 2026 on Bluesky. Mueller’s argument was this: “Meaning lives in structure, hierarchy and context. Flatten it and you don’t make it machine-friendly, you make it meaningless.” LLMs were trained on normal HTML pages from the beginning and have no problems processing them. The answer isn’t to create a flat, simplified version for machines. It’s to make the HTML itself properly structured. Well-written semantic HTML already is the machine-readable format. Besides, that simplified version already exists in the accessibility tree, and it is what AI agents already use.
Layer 5: AI Discoverability Signals
The final layer covers signals that don’t fit neatly into traditional audit categories but directly affect how AI systems discover and evaluate your website.
llms.txt (dis-honourable mention). Listed first for one reason only, ask any LLM what you should do to make your website more visible to AI systems, and llms.txt will be at or near the top of the list. It’s their world, I guess. The llms.txt specification provides a simple markdown file that helps AI agents understand your website’s purpose, structure, and key content. No large-scale adoption data has been published yet, and its actual impact on AI citations is unproven. But LLMs consistently recommend it, which means AI-powered audit tools and consultants will flag its absence. It takes minutes to create and costs nothing to maintain.
OK, now that we’ve got that out of the way, let’s look at what might really matter.
AI crawler analytics. Are you monitoring AI bot traffic? Cloudflare’s AI Audit dashboard shows which AI crawlers visit, how often, and which pages they hit. If you’re not on Cloudflare, check server logs for Google-Agent, ChatGPT-User, and ClaudeBot user agent strings. Google publishes a
user-triggered-agents.jsonarchivo que contiene rangos de IP que utiliza Google-Agent, para que pueda verificar si las solicitudes entrantes provienen genuinamente de Google en lugar de cadenas de agentes de usuario falsificadas.Definición de entidad. ¿Su sitio web define claramente qué es la empresa, quién la dirige y qué hace? No en un texto de marketing, sino en un marcado estructurado y analizable por máquina. El esquema de la organización debe incluir nombre, URL, logotipo, fecha de fundación y enlaces iguales a perfiles verificados en LinkedIn, Crunchbase y Wikipedia. El esquema de persona para personas clave debe conectarlas con la organización a través de las propiedades de autor y empleado. Los sistemas de inteligencia artificial deben resolver su identidad como entidad distinta antes de poder recomendarlo con confianza sobre competidores con nombres u ofertas similares. No coloque esto en la parte superior de su sitio web cuando su diseñador haya terminado con su trabajo. Comience aquí; te hará la vida más fácil.
Posición del contenido. El lugar donde colocas la información en la página afecta directamente si los sistemas de inteligencia artificial la citan. El análisis de Kevin Indig de 98.000 filas de citas de ChatGPT en 1,2 millones de respuestas encontró que el 44,2% de todas las citas de IA provienen del 30% superior de una página. El 10% inferior obtiene sólo entre el 2,4% y el 4,4% de las citaciones, independientemente de la industria. Duane Forrester llama a esto “pensamiento de hueso de perro”: fuerte al principio y al final, débil en el medio, un patrón que los investigadores de Stanford han confirmado como el fenómeno “perdido en el medio”. Audite sus páginas clave: ¿las afirmaciones y los puntos de datos más importantes están en el primer 30% o están enterrados en el medio?
Extraíble contenido. Extraiga cualquier afirmación clave de su página y léala de forma aislada. ¿Todavía tiene sentido sin los párrafos que lo rodean? Los sistemas de recuperación de IA, como ChatGPT, Perplexity y Google AI Overviews, extraen y citan pasajes y oraciones individuales que se basan en "esto", "eso" o "lo anterior" para su significado, y se vuelven inutilizables cuando se extraen de su contexto original. El excelente marco de redacción de utilidades de Ramon Eijkemans asigna estos principios a mecanismos de recuperación documentados: oraciones autónomas, relaciones entre entidades explícitas y declaraciones ancla citables que los sistemas de inteligencia artificial pueden citar con confianza sin inferencias adicionales.
La lista de verificación de auditoría
Controlar Herramienta/Método Lo que estas buscando Robots rastreadores de IA.txt revisión manual Decisiones conscientes por rastreador Representación de JavaScript curl, Ver código fuente, navegador Lynx Contenido crítico en HTML estático Datos estructurados Validador de esquemas, prueba de resultados enriquecidos JSON-LD completo y conectado HTML semántico hacha DevTools, faro Elementos adecuados, jerarquía de encabezados. Árbol de accesibilidad Instantánea de Dramaturgo MCP, lector de pantalla Lo que realmente ven los agentes Tráfico de robots de IA Cloudflare, registros del servidor Volumen, páginas visitadas, patrones. De la auditoría a la acción
Esta auditoría identifica brechas. Arreglarlos requiere una secuencia, porque algunas soluciones dependen de otras. Optimizar la estructura del contenido antes de establecer una identidad legible por máquina significa que los agentes pueden extraer su información, pero no pueden atribuirla con seguridad a su marca. Escribí Machine-First Architecture para proporcionar esa secuencia: identidad, estructura, contenido, interacción, cada pilar se basa en el anterior.
Por qué la auditoría técnica de SEO es el lugar al que pertenece
Nada de esto es técnicamente SEO. Las reglas de Robots.txt para rastreadores de IA no afectan las clasificaciones de Google. La optimización del árbol de accesibilidad no mueve las posiciones de las palabras clave. La puntuación de la posición del contenido no tiene nada que ver con la indexación de búsqueda.
Pero la mayor parte surgió del SEO técnico. Gestión de rastreo, datos estructurados, HTML semántico, renderizado de JavaScript, análisis de registros del servidor: estas son habilidades que los SEO técnicos ya tienen. La metodología de auditoría se transfiere directamente. El consumidor al que sirve es lo que cambió.
Los sitios web que son citados en las respuestas de IA, que funcionan cuando los visita la navegación automática de Chrome, que aparecen cuando alguien le pide una recomendación a ChatGPT, no serán los que tendrán el mejor contenido por sí solos. Serán aquellos cuya base técnica hizo que ese contenido fuera accesible a las máquinas. Los SEO técnicos son las personas mejor equipadas para construir esa base. La antigua plantilla de auditoría sólo necesita una nueva sección para reflejarla.
Más recursos:
Imagen de portada: Anton Vierietin/Shutterstock


