Google comparte más información sobre los límites de rastreo del robot de Google

Fecha:

--Advertisement--spot_img

Gary Ilyes y Martin Splitt de Google discutieron los límites de rastreo del robot de Google, brindaron más detalles sobre por qué existen los límites y revelaron nueva información sobre cómo esos límites se pueden ajustar hacia arriba o hacia abajo según las necesidades y lo que se está logrando.

Detalles sobre los límites del robot de Google

Gary Illyes compartió detalles de lo que sucede detrás de escena en Google que impulsa los distintos límites de rastreo, comenzando con el límite de 15 megabytes del robot de Google.

Dijo que cualquier rastreador dentro de Google tiene un límite de 15 megabytes y dijo explícitamente que este límite podría anularse o desactivarse. De hecho, dijo que los equipos dentro de Google regularmente anulan ese límite. Usó el ejemplo de la Búsqueda de Google, que anula ese límite reduciéndolo a dos megabytes.

Illyes explicó:

«Quiero decir, hay un montón de cosas que son para nuestra propia protección o la protección de nuestra infraestructura. Como, por ejemplo, el infame límite predeterminado de 15 megabytes que se establece a nivel de infraestructura.

Y básicamente cualquier rastreador que no anule esa configuración tendrá un límite de 15 megabytes. Básicamente, comienza a recuperar los bytes del servidor o lo que sea que esté enviando el servidor. Y luego hay un contador interno. Y luego, cuando alcanzó los 15 megabytes, básicamente deja de recibir los bytes.

No sé si cierra la conexión o no. Creo que no cierra la conexión. Simplemente envía una respuesta al servidor que dice: Está bien, puedes detenerlo ahora. Estoy bien.

Pero luego los equipos individuales pueden anular eso. Y eso sucede. Sucede bastante. Y, por ejemplo, para la Búsqueda de Google, específicamente para la Búsqueda de Google, el límite se anula a dos megabytes”.

Los límites del robot de Google son para la protección de la infraestructura

A continuación, Illyes compartió un ejemplo en el que se anula el límite de 15 megabytes para aumentar el límite de rastreo, en este caso para archivos PDF. Aquí es donde menciona los límites del robot de Google en el contexto de proteger la infraestructura de Google para que no se vea abrumada por demasiados datos.

LEER  Dominar el contenido para la autoridad y las citas de actualidad

Ofreció más detalles:

«Bueno, casi todo. Como, por ejemplo, para los archivos PDF, es, no sé, 64 o lo que sea. Debido a que los archivos PDF pueden, como el estándar HTTP, si los exportas como PDF, creo que dijiste eso, si los exportas como PDF, entonces son 96 megabytes o algo así.

Pero eso significa que abrumaría nuestra infraestructura si recuperamos todo y luego lo convertimos a HTML, bla, bla, y luego comenzamos a procesarlo.
Es simplemente abrumador porque hay tantos datos.

Y lo mismo ocurre con HTML. Es el estándar de vida HTML. Si tienes como 14 megabytes, no vamos a recuperarlos. Vamos a buscar las páginas individuales porque, afortunadamente, también tenían suficiente capacidad intelectual para tener páginas individuales para características individuales de HTML. Podemos recuperar esas páginas, pero no vamos a obtener nada útil del buscapersonas de 14 megabytes del estándar HTML”.

Otros rastreadores de Google tienen límites diferentes

En este punto, Illyes reveló que otros rastreadores de Google tienen límites diferentes y que los límites documentados no son límites estrictos para todos los rastreadores de Google.

Continuó:

«Así que sí, y con otros rastreadores, nunca trabajé en otros rastreadores, pero estoy seguro de que otros rastreadores tienen configuraciones diferentes. Me imagino, por ejemplo, que incluso en proyectos individuales, puede tener configuraciones diferentes para la misma cosa.

Por ejemplo, puedo imaginar que si necesitamos indexar algo muy rápido, entonces el límite de truncamiento podría ser de un megabyte, por ejemplo. No sé si ese es el caso, pero me imagino que así será. Porque si necesitas impulsar algo a través del proceso de indexación en cuestión de segundos, entonces es más fácil tratar con pocos datos”.

La infraestructura de rastreo de Google no es monolítica

Esta parte del episodio Search Off The Record llegó a su fin con Martin Splitt afirmando que la infraestructura de rastreo de Google es flexible y mucho más diversa que lo que se describe en la documentación de Google, diciendo que no es monolítica. Monolítico significa literalmente una roca de piedra masiva y se usa para describir algo que no cambia y es consistente. Al decir que los rastreadores de Google no son monolíticos, Splitt afirma que son flexibles en términos de límites de búsqueda y otras configuraciones.

LEER  18 cambios de accesibilidad esencial para impulsar un aumento en el crecimiento de SEO

También se centró en describir la infraestructura de rastreo de Google como software como servicio.

Splitt resumió las conclusiones:

«Eso es cierto. Creo que, en general, es útil haber aclarado esta idea de que el rastreo es simplemente una especie de cosa monolítica. Es más como un software como servicio en el que la búsqueda, o la búsqueda web específicamente, es un cliente y no una cosa monolítica.

Y como dijiste, la configuración puede cambiar. Incluso puede cambiar dentro, digamos, del robot de Google. Si estoy buscando una imagen, probablemente permitamos que las imágenes tengan más de 2 megabytes, supongo, porque las imágenes fácilmente tienen más de 2 megabytes. PDF, permita 64. Lo que esté documentado, vincularemos la documentación. Pero creo que eso tiene mucho sentido.

Y si lo piensas como si fuera un servicio al que llamamos con un montón de parámetros, entonces tiene mucho más sentido ver, OK, entonces hay una configuración diferente. Y esta configuración puede cambiar según el nivel de solicitud, no necesariamente solo, el robot de Google es siempre el mismo”.

Escuche el episodio Search Off The Record desde los 20 minutos:

Imagen destacada de Shutterstock/BestForBest

--Advertisement--spot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

spot_img

Popular

spot_img

Más como esto
Relacionada

Google responde preguntas sobre el filtro de consultas de marca de...

Google Search Central anunció que el filtro de consultas...

Google dice que implementa cientos de rastreadores indocumentados

Gary Illyes y Martin Splitt de Google publicaron un...

Datos de actualización principal de Google Discover: los editores locales perdieron...

Un análisis de la herramienta de seguimiento DiscoverSnoop se...

Iniciar o dirigir la ola

Escribí una publicación en LinkedIn sobre este mismo tema...