Google explica los límites de bytes del robot de Google y la arquitectura de rastreo

Fecha:

--Advertisement--spot_img

Gary Illyes de Google publicó una entrada en su blog explicando cómo funcionan los sistemas de rastreo del robot de Google. La publicación cubre los límites de bytes, el comportamiento de recuperación parcial y cómo está organizada la infraestructura de rastreo de Google.

La publicación hace referencia al episodio 105 del podcast Search Off the Record, donde Illyes y Martin Splitt discutieron los mismos temas. Illyes agrega más detalles sobre la arquitectura de rastreo y el comportamiento a nivel de bytes.

Qué hay de nuevo

Googlebot es un cliente de una plataforma compartida

Illyes describe al robot de Google como «simplemente un usuario de algo que se asemeja a una plataforma de rastreo centralizada».

Google Shopping, AdSense y otros productos envían sus solicitudes de rastreo a través del mismo sistema con diferentes nombres de rastreador. Cada cliente establece su propia configuración, incluida la cadena de agente de usuario, tokens robots.txt y límites de bytes.

Cuando Googlebot aparece en los registros del servidor, eso es la Búsqueda de Google. Otros clientes aparecen bajo sus propios nombres de rastreadores, que Google enumera en su sitio de documentación de rastreadores.

Cómo funciona en la práctica el límite de 2 MB

El robot de Google recupera hasta 2 MB para cualquier URL, excepto archivos PDF. Los archivos PDF tienen un límite de 64 MB. Los rastreadores que no especifican un límite predeterminado son 15 MB.

Illyes añade varios detalles sobre lo que sucede a nivel de bytes.

Dice que los encabezados de solicitud HTTP cuentan para el límite de 2 MB. Cuando una página supera los 2 MB, el robot de Google no la rechaza. El rastreador se detiene en el corte y envía el contenido truncado a los sistemas de indexación de Google y al Servicio de renderizado web (WRS).

LEER  Bulleit se asocia con First We Feast for Content Series sobre Takers de riesgos

Esos sistemas tratan el archivo truncado como si estuviera completo. Todo lo que supere los 2 MB nunca se recupera, procesa ni indexa.

Cada recurso externo al que se hace referencia en HTML, como archivos CSS y JavaScript, se recupera con su propio contador de bytes independiente. Esos archivos no cuentan para los 2 MB de la página principal. WRS no recupera los archivos multimedia, las fuentes y lo que Google llama “algunos archivos exóticos”.

Representación después de la búsqueda

El WRS procesa JavaScript y ejecuta código del lado del cliente para comprender el contenido y la estructura de una página. Recibe solicitudes de JavaScript, CSS y XHR, pero no solicita imágenes ni videos.

Illyes también señala que WRS opera sin estado, borrando el almacenamiento local y los datos de sesión entre solicitudes. La documentación de solución de problemas de JavaScript de Google cubre las implicaciones para los sitios que dependen de JavaScript.

Mejores prácticas para mantenerse por debajo del límite

Google recomienda mover CSS y JavaScript pesados ​​a archivos externos, ya que tienen sus propios límites de bytes. Las metaetiquetas, las etiquetas de título, los elementos de enlace, los datos canónicos y los datos estructurados deben aparecer más arriba en el HTML. En páginas grandes, el contenido colocado más abajo en el documento corre el riesgo de quedar por debajo del límite.

Illyes señala imágenes base64 en línea, grandes bloques de CSS o JavaScript en línea y menús de gran tamaño como ejemplos de lo que podría hacer que las páginas superen los 2 MB.

El límite de 2 MB «no está escrito en piedra y puede cambiar con el tiempo a medida que la web evoluciona y las páginas HTML crecen en tamaño».

LEER  Google Gemini gana participación a medida que ChatGPT disminuye en datos de Similarweb

Por qué esto importa

El límite de 2 MB y el límite de PDF de 64 MB se documentaron por primera vez como cifras específicas del robot de Google en febrero. Los datos de HTTP Archive mostraron que la mayoría de las páginas están muy por debajo del umbral. Esta publicación de blog agrega el contexto técnico detrás de esos números.

La descripción de la plataforma explica por qué los diferentes rastreadores de Google se comportan de manera diferente en los registros del servidor y por qué los 15 MB predeterminados difieren del límite de 2 MB del robot de Google. Estas son configuraciones separadas para diferentes clientes.

Los detalles del encabezado HTTP son importantes para las páginas cercanas al límite. Google afirma que los encabezados consumen parte del límite de 2 MB junto con los datos HTML. La mayoría de los sitios no se verán afectados, pero las páginas con encabezados grandes y etiquetas infladas podrían alcanzar el límite antes.

Mirando hacia el futuro

Google ahora ha cubierto los límites de rastreo del robot de Google en actualizaciones de documentación, un episodio de podcast y una publicación de blog dedicada en un lapso de dos meses. La nota de Illyes de que el límite puede cambiar con el tiempo sugiere que estas cifras no son permanentes.

Para sitios con páginas HTML estándar, el límite de 2 MB no es una preocupación. Las páginas con mucho contenido en línea, datos incrustados o navegación de gran tamaño deben verificar que su contenido crítico esté dentro de los primeros 2 MB de la respuesta.

LEER  Los paseos de Chili con NASCAR, Lifetime to Push Margaritas con música, TV

Imagen de portada: Sergei Elagin/Shutterstock

--Advertisement--spot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

spot_img

Popular

spot_img

Más como esto
Relacionada

Por qué el nuevo agente de Google puede ser un pivote...

Google actualizó silenciosamente su lista de buscadores activados por...

Las páginas son cada vez más grandes y todavía importa

Gary Illyes y Martin Splitt de Google utilizaron un...

El nuevo índice de empleos de IA clasifica 784 ocupaciones por...

Los empleos con mayor potencial de aumento de productividad...

TurboQuant tiene el potencial de cambiar fundamentalmente el funcionamiento de la...

Google publicó una entrada de blog sobre un nuevo...