Google explica los límites de bytes del robot de Google y la arquitectura de rastreo

--Advertisement--

Gary Illyes de Google publicó una entrada en su blog explicando cómo funcionan los sistemas de rastreo del robot de Google. La publicación cubre los límites de bytes, el comportamiento de recuperación parcial y cómo está organizada la infraestructura de rastreo de Google.

La publicación hace referencia al episodio 105 del podcast Search Off the Record, donde Illyes y Martin Splitt discutieron los mismos temas. Illyes agrega más detalles sobre la arquitectura de rastreo y el comportamiento a nivel de bytes.

Qué hay de nuevo

Googlebot es un cliente de una plataforma compartida

Illyes describe al robot de Google como «simplemente un usuario de algo que se asemeja a una plataforma de rastreo centralizada».

Google Shopping, AdSense y otros productos envían sus solicitudes de rastreo a través del mismo sistema con diferentes nombres de rastreador. Cada cliente establece su propia configuración, incluida la cadena de agente de usuario, tokens robots.txt y límites de bytes.

Cuando Googlebot aparece en los registros del servidor, eso es la Búsqueda de Google. Otros clientes aparecen bajo sus propios nombres de rastreadores, que Google enumera en su sitio de documentación de rastreadores.

Cómo funciona en la práctica el límite de 2 MB

El robot de Google recupera hasta 2 MB para cualquier URL, excepto archivos PDF. Los archivos PDF tienen un límite de 64 MB. Los rastreadores que no especifican un límite predeterminado son 15 MB.

Illyes añade varios detalles sobre lo que sucede a nivel de bytes.

Dice que los encabezados de solicitud HTTP cuentan para el límite de 2 MB. Cuando una página supera los 2 MB, el robot de Google no la rechaza. El rastreador se detiene en el corte y envía el contenido truncado a los sistemas de indexación de Google y al Servicio de renderizado web (WRS).

LEER La importancia de rastrear SERP y cómo hacerlo en 2025

Esos sistemas tratan el archivo truncado como si estuviera completo. Todo lo que supere los 2 MB nunca se recupera, procesa ni indexa.

Cada recurso externo al que se hace referencia en HTML, como archivos CSS y JavaScript, se recupera con su propio contador de bytes independiente. Esos archivos no cuentan para los 2 MB de la página principal. WRS no recupera los archivos multimedia, las fuentes y lo que Google llama “algunos archivos exóticos”.

Representación después de la búsqueda

El WRS procesa JavaScript y ejecuta código del lado del cliente para comprender el contenido y la estructura de una página. Recibe solicitudes de JavaScript, CSS y XHR, pero no solicita imágenes ni videos.

Illyes también señala que WRS opera sin estado, borrando el almacenamiento local y los datos de sesión entre solicitudes. La documentación de solución de problemas de JavaScript de Google cubre las implicaciones para los sitios que dependen de JavaScript.

Mejores prácticas para mantenerse por debajo del límite

Google recomienda mover CSS y JavaScript pesados a archivos externos, ya que tienen sus propios límites de bytes. Las metaetiquetas, las etiquetas de título, los elementos de enlace, los datos canónicos y los datos estructurados deben aparecer más arriba en el HTML. En páginas grandes, el contenido colocado más abajo en el documento corre el riesgo de quedar por debajo del límite.

Illyes señala imágenes base64 en línea, grandes bloques de CSS o JavaScript en línea y menús de gran tamaño como ejemplos de lo que podría hacer que las páginas superen los 2 MB.

El límite de 2 MB «no está escrito en piedra y puede cambiar con el tiempo a medida que la web evoluciona y las páginas HTML crecen en tamaño».

LEER Por qué la visibilidad de alta intención aún puede tener un rendimiento inferior

Por qué esto importa

El límite de 2 MB y el límite de PDF de 64 MB se documentaron por primera vez como cifras específicas del robot de Google en febrero. Los datos de HTTP Archive mostraron que la mayoría de las páginas están muy por debajo del umbral. Esta publicación de blog agrega el contexto técnico detrás de esos números.

La descripción de la plataforma explica por qué los diferentes rastreadores de Google se comportan de manera diferente en los registros del servidor y por qué los 15 MB predeterminados difieren del límite de 2 MB del robot de Google. Estas son configuraciones separadas para diferentes clientes.

Los detalles del encabezado HTTP son importantes para las páginas cercanas al límite. Google afirma que los encabezados consumen parte del límite de 2 MB junto con los datos HTML. La mayoría de los sitios no se verán afectados, pero las páginas con encabezados grandes y etiquetas infladas podrían alcanzar el límite antes.

Mirando hacia el futuro

Google ahora ha cubierto los límites de rastreo del robot de Google en actualizaciones de documentación, un episodio de podcast y una publicación de blog dedicada en un lapso de dos meses. La nota de Illyes de que el límite puede cambiar con el tiempo sugiere que estas cifras no son permanentes.

Para sitios con páginas HTML estándar, el límite de 2 MB no es una preocupación. Las páginas con mucho contenido en línea, datos incrustados o navegación de gran tamaño deben verificar que su contenido crítico esté dentro de los primeros 2 MB de la respuesta.

LEER Google prueba titulares de inteligencia artificial y lanza actualización de spam – SEO Pulse

Imagen de portada: Sergei Elagin/Shutterstock

Etiquetas
Marketing
SEO

Artículo anterior

Por qué el nuevo agente de Google puede ser un pivote relacionado con la tendencia OpenClaw

Artículo siguiente

Qué hacen a continuación los CMO inteligentes

--Advertisement--

DEJA UNA RESPUESTA Cancelar respuesta

Por favor ingrese su comentario!

Por favor ingrese su nombre aquí

¡Has introducido una dirección de correo electrónico incorrecta!

Por favor ingrese su dirección de correo electrónico aquí

Google explica los límites de bytes del robot de Google y la arquitectura de rastreo

Qué hay de nuevo

Googlebot es un cliente de una plataforma compartida

Cómo funciona en la práctica el límite de 2 MB

Representación después de la búsqueda

Mejores prácticas para mantenerse por debajo del límite

Por qué esto importa

Mirando hacia el futuro

DEJA UNA RESPUESTA Cancelar respuesta

La orientación de LLM no se transfiere como lo hizo la...

Cómo realizar una prueba de estrés en un entorno de ensayo:...

Mueller explica por qué Google utiliza Markdown en Dev Docs

OEA clave y tendencias de contenido para 2026

Google comparte los primeros datos de uso del modo AI después...

4 correcciones en el flujo de trabajo de publicación que aportan...

Más como esto
Relacionada

La orientación de LLM no se transfiere como lo hizo la...

Cómo realizar una prueba de estrés en un entorno de ensayo:...

Mueller explica por qué Google utiliza Markdown en Dev Docs

OEA clave y tendencias de contenido para 2026

Sobre nosotras

Categorías

Lo último

La orientación de LLM no se transfiere como lo hizo la...

Cómo realizar una prueba de estrés en un entorno de ensayo:...

Mueller explica por qué Google utiliza Markdown en Dev Docs

Selecciones del editor

Cómo aumentar la visibilidad de Google Discover: señales de clasificación que...

Ninjas de marketing en Internet adquiridos por Previsible

Por qué un buen contenido ya no es suficiente y qué...

Google explica los límites de bytes del robot de Google y la arquitectura de rastreo

Qué hay de nuevo

Googlebot es un cliente de una plataforma compartida

Cómo funciona en la práctica el límite de 2 MB

Representación después de la búsqueda

Mejores prácticas para mantenerse por debajo del límite

Por qué esto importa

Mirando hacia el futuro

DEJA UNA RESPUESTA Cancelar respuesta

Más como estoRelacionada

Sobre nosotras

Categorías

Lo último

Selecciones del editor

Más como esto
Relacionada