Google puede ampliar la lista de reglas de Robots.txt no compatibles

Fecha:

--Advertisement--spot_img

Google puede ampliar la lista de reglas de robots.txt no compatibles en su documentación basándose en el análisis de datos de robots.txt del mundo real recopilados a través de HTTP Archive.

Gary Illyes y Martin Splitt describieron el proyecto en el último episodio de Search Off the Record. El trabajo comenzó después de que un miembro de la comunidad enviara una solicitud de extracción al repositorio robots.txt de Google proponiendo que se agregaran dos nuevas etiquetas a la lista no admitida.

Illyes explicó por qué el equipo amplió el alcance más allá de las dos etiquetas en el PR:

«Intentamos no hacer las cosas de forma arbitraria, sino recopilar datos».

En lugar de agregar solo las dos etiquetas propuestas, el equipo decidió analizar las 10 o 15 reglas no compatibles más utilizadas. Illyes dijo que el objetivo era “un punto de partida decente, una línea de base decente” para documentar las etiquetas no compatibles más comunes en la naturaleza.

Cómo funcionó la investigación

El equipo utilizó HTTP Archive para estudiar qué reglas utilizan los sitios web en sus archivos robots.txt. HTTP Archive realiza rastreos mensuales en millones de URL mediante WebPageTest y almacena los resultados en Google BigQuery.

El primer intento chocó contra una pared. El equipo «descubrió rápidamente que en realidad nadie solicita archivos robots.txt» durante el rastreo predeterminado, lo que significa que los conjuntos de datos del archivo HTTP no suelen incluir contenido robots.txt.

Después de consultar con Barry Pollard y la comunidad HTTP Archive, el equipo escribió un analizador de JavaScript personalizado que extrae las reglas de robots.txt línea por línea. La métrica personalizada se fusionó antes del rastreo de febrero y los datos resultantes ahora están disponibles en el conjunto de datos custom_metrics de BigQuery.

LEER  Por qué las compras con IA agente parecen antinaturales y pueden no amenazar el SEO

Lo que muestran los datos

El analizador extrajo cada línea que coincidía con un patrón de valor de dos puntos de campo. Illyes describió la distribución resultante:

«Después de permitir y no permitir y el agente de usuario, la caída es extremadamente drástica».

Más allá de esos tres campos, el uso de reglas cae en una larga cola de directivas menos comunes, además de datos basura de archivos rotos que devuelven HTML en lugar de texto sin formato.

Actualmente, Google admite cuatro campos en robots.txt. Esos campos son agente de usuario, permitir, no permitir y mapa del sitio. La documentación dice que otros campos «no son compatibles» sin enumerar qué campos no compatibles son los más comunes en la naturaleza.

Google ha aclarado que se ignoran los campos no admitidos. El proyecto actual amplía ese trabajo al identificar reglas específicas que Google planea documentar.

Se espera que las 10 a 15 reglas más utilizadas más allá de los cuatro campos admitidos se agreguen a la lista de reglas no admitidas de Google. Illyes no mencionó las reglas específicas que se incluirían.

La tolerancia a errores tipográficos puede ampliarse

Illyes dijo que el análisis también reveló errores ortográficos comunes en la regla de no permitir:

«Probablemente voy a ampliar los errores tipográficos que aceptamos».

Su redacción implica que el analizador ya acepta algunos errores ortográficos. Illyes no se comprometió con una línea de tiempo ni mencionó errores tipográficos específicos.

Por qué esto importa

Search Console ya muestra algunas etiquetas robots.txt no reconocidas. Si Google documenta más directivas no compatibles, eso podría hacer que su documentación pública refleje más fielmente las etiquetas no reconocidas que la gente ya ve en Search Console.

LEER  ChatGPT lidera la carrera de búsqueda de IA Mientras que Google y otros se deslizan, los datos muestran

Mirando hacia el futuro

La actualización planificada afectaría la documentación pública de Google y cómo se manejan los errores tipográficos no permitidos. Cualquiera que mantenga un archivo robots.txt con reglas más allá de agente de usuario, permitir, no permitir y mapa del sitio debe realizar una auditoría para detectar directivas que nunca hayan funcionado para Google.

Los datos del archivo HTTP se pueden consultar públicamente en BigQuery para cualquiera que quiera examinar la distribución directamente.


Imagen destacada: captura de pantalla de: YouTube.com/GoogleSearchCentral, abril de 2026.

--Advertisement--spot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

spot_img

Popular

spot_img

Más como esto
Relacionada

Distribución localizada en la era de la IA: el marco DIRHAM

El año pasado, impartí un módulo sobre marketing de...

Por qué Google ha cambiado y quién paga realmente por ello

Dinero, obviamente. Pero es más profundo que eso. La participación...