El rastreo 404 significa que Google está abierto a más contenido suyo

Fecha:

--Advertisement--spot_img

John Mueller de Google respondió una pregunta sobre Search Console y el informe de errores 404, sugiriendo que el rastreo repetido de páginas con un código de estado 404 es una señal positiva.

Código de estado 404

El código de estado 404, a menudo denominado código de error, ha confundido durante mucho tiempo a muchos propietarios de sitios y SEO porque la palabra «error» implica que algo está roto y necesita ser reparado. Pero ese no es el caso.

404 es simplemente un código de estado que un servidor envía en respuesta a la solicitud de una página por parte de un navegador. 404 es un mensaje que comunica que no se encontró la página solicitada. El único error es la solicitud en sí porque la página no existe.

Aunque normalmente se lo conoce como error 404, técnicamente el nombre formal es 404 no encontrado. Ese nombre refleja con precisión el significado del código de estado 404: no se encontró la página solicitada.

Captura de pantalla del estándar web oficial para el código de estado 4o4

Google sigue rastreando páginas 404

Alguien en Reddit publicó que Google Search Console sigue informando que las páginas que ya no existen se siguen encontrando a través de los datos del mapa del sitio, a pesar de que el mapa del sitio ya no enumera las páginas que faltan.

La persona afirma que Search Console está rastreando las páginas que faltan, pero en realidad es el robot de Google el que las está rastreando; Search Console simplemente informa los rastreos fallidos.

Les preocupa el desperdicio del presupuesto de rastreo y quieren saber si deberían enviar un código de respuesta 410.

Ellos escribieron:

“Google Search Console todavía está rastreando un montón de páginas inexistentes que devuelven 404. En la herramienta de inspección de páginas y en las estadísticas de rastreo, dice que se “descubren a través” de mi page-sitemap.xml.

El problema:

Cuando abro la página real-sitemap.xml en el navegador ahora mismo, no aparece ninguna de esas URL 404.

El mapa del sitio sólo contiene 21 páginas buenas y activas.

…No quiero eliminar ni dejar de enviar el mapa del sitio porque está limpio y sólo apunta a páginas buenas. Pero estos rastreos repetidos están desperdiciando el presupuesto de rastreo.

¿Alguien se ha encontrado con esto antes?

¿Google finalmente se detendrá por sí solo?

¿Debo cambiar los 404 a 410 Gone?

¿O hay otra manera de decirle a GSC “oye, estos se han ido para siempre”?

Acerca del rastreo de páginas 404 de Google

Google tiene una práctica de larga data de rastrear páginas 404 en caso de que esas páginas hayan sido eliminadas por accidente y hayan sido restauradas. Como verá en un momento, John Mueller de Google indica firmemente que el rastreo repetido de páginas 404 indica que los sistemas de Google pueden considerar el contenido de manera positiva.

LEER  El plan de la UE para simplificar el RGPD se centra en la formación en inteligencia artificial y el consentimiento de cookies

Acerca de la respuesta 404 Página no encontrada

La definición estándar web oficial del código de estado 404 es que no se encontró el recurso solicitado y eso es todo, nada más. Esta respuesta no indica que la página nunca regrese. Simplemente significa que no se encontró la página solicitada.

Acerca de la respuesta 410 desaparecida

El estándar web oficial para el código de estado 410 es que la página desapareció y que el estado de desaparición probablemente sea permanente. El propósito de la respuesta es comunicar que los recursos han desaparecido intencionalmente y que se debe eliminar cualquier vínculo a esos recursos.

Google esencialmente maneja 404 y 410 de la misma manera

Técnicamente, si una página web desaparece permanentemente y nunca regresa, 410 es el mensaje correcto del servidor para enviar en respuesta a las solicitudes de la página faltante. En la práctica, Google trata la respuesta 410 prácticamente igual que la respuesta 404 del servidor. De manera similar a como trata las respuestas 404, los rastreadores de Google aún pueden regresar para verificar si la página de respuestas 410 desapareció.

Los empleados de Google han dicho constantemente que la respuesta del servidor 410 es ligeramente más rápida a la hora de eliminar una página del índice de Google.

Google confirma hechos sobre los códigos de respuesta 404 y 410

Mueller de Google respondió con una respuesta breve pero llena de información que explicaba que los informes 404 reportados en Search Console no son un problema que deba solucionarse, que enviar una respuesta 410 no hará una diferencia en los informes 404 de Search Console y que una gran cantidad de URL en ese informe se pueden ver de manera positiva.

LEER  Operai lanza la creación de imágenes GPT-4O para todos

Mueller respondió:

«Estos no causan problemas, así que simplemente los dejaría en paz. Se volverán a rastrear potencialmente durante mucho tiempo, un 410 no cambiará eso. En cierto modo, esto significa que Google estaría de acuerdo con recoger más contenido de su sitio».

Malentendidos sobre las respuestas del servidor 4XX

La discusión sobre Reddit continuó. El moderador del subreddit r/SEO sugirió que la razón por la que Search Console informa que descubrió la URL en el mapa del sitio es porque ahí es donde Googlebot descubrió originalmente la URL, lo cual suena razonable.

Donde el moderador se equivocó fue al explicar qué significa el código de respuesta 404.

El moderador explicó incorrectamente:

«404 significa esencialmente: página rota, la arreglaremos pronto, vuelve a comprobarlo: y eso es lo que está haciendo Google: vuelve a comprobar si lo has solucionado».

El moderador comete dos errores en su respuesta.

1. 404 significa página no encontrada
El código de estado 404 solo significa que no se encontró la página, punto. ¿No me crees? Aquí está el estándar web oficial para el código de estado 404:

«El código de estado 404 (No encontrado) indica que el servidor de origen no encontró una representación actual para el recurso de destino o no está dispuesto a revelar que existe. Un código de estado 404 no indica si esta falta de representación es temporal o permanente…»

2. 404 no es un error que deba solucionarse
La gente suele referirse al código de estado 404 como una respuesta de error. La razón por la que es un error es porque el navegador o el rastreador solicitó una URL que no existe, lo que significa que la solicitud fue el error, no que la página necesita ser reparada, como insistió el moderador cuando dijo «404 significa esencialmente: página rota», lo cual es 100% incorrecto.

Además, el moderador de Reddit se equivocó al insistir en que Google está «volviendo a comprobar si lo solucionó». Google está volviendo a comprobar si la página desapareció por accidente, pero eso no significa que el 404 sea algo que deba solucionarse. La mayoría de las veces, se supone que una página desaparece por algún motivo, y Google recomienda publicar un código de respuesta 404 para esos momentos.

LEER  Debate de la UCP, las tendencias se vuelven Géminis, preocupaciones sobre la salud de AIO

Esto no es nuevo

No se trata de que la información del moderador de Reddit esté desactualizada. Este siempre ha sido el caso de Google, que generalmente sigue los estándares web oficiales.

Matt Cutts de Google explicó cómo maneja Google los 404 y por qué en un video de 2014:

«Resulta que los webmasters se disparan en el pie con bastante frecuencia. Las páginas se pierden, la gente configura mal los sitios, los sitios se caen, la gente bloquea al robot de Google por accidente, la gente bloquea a los usuarios habituales por accidente. Así que si nos fijamos en toda la web, el equipo de rastreo tiene que diseñarse para ser sólido contra eso.

Entonces, con los 404… protegeremos esa página durante veinticuatro horas en el sistema de rastreo. Así que esperamos y decimos, bueno, tal vez fue un 404 transitorio. Tal vez en realidad no estaba destinado a ser una página no encontrada. Y así en el sistema de rastreo estará protegido durante veinticuatro horas.

… Ahora, no tomes esto demasiado a mal, aún así regresaremos y volveremos a verificar y asegurarnos de que esas páginas realmente desaparecieron o tal vez hayan vuelto a estar vivas.

…Y entonces, si una página desaparece, está bien presentar un 404. Si sabes que realmente desapareció, está bien presentar un 410.

Pero diseñaremos nuestro sistema de rastreo para intentar que sea robusto. Pero si su sitio deja de funcionar, o si lo piratean o lo que sea, tratamos de asegurarnos de que aún podamos encontrar el buen contenido siempre que esté disponible”.

Las conclusiones

  • El rastreo del robot de Google en busca de páginas 404 puede verse como una señal positiva de que a Google le gusta su contenido.
  • Los códigos de estado 404 no significan que una página tenga un error; significa que no se encontró una página.
  • Los códigos de estado 404 no significan que sea necesario arreglar algo. Sólo significa que no se encontró una página solicitada.
  • No hay nada de malo en entregar un código de respuesta 404; Google lo recomienda.
  • Search Console muestra respuestas 404 para que el propietario de un sitio pueda decidir si esas páginas han desaparecido intencionalmente o no.

Imagen destacada de Shutterstock/Jack_the_sparow

--Advertisement--spot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

spot_img

Popular

spot_img

Más como esto
Relacionada

Una prueba de SEO muestra que es trivial clasificar la información...

Un SEO que estaba elaborando un boletín con IA...

Auténtica conversación humana™

El viernes pasado por la tarde, Digg murió. De...

Cómo utilizar la IA para optimizar el tiempo (y el dinero)...

El SEO, como la mayoría de los canales orgánicos,...

Cómo crear un flujo de trabajo de puesta en marcha de...

El SEO empresarial no falla porque los equipos carezcan...