El 81,8% del tráfico de mi ‘Asistente de IA’ era falso. El número del robot de Google fue peor

Fecha:

--Advertisement--spot_img

Lancé CitationIQ.com recientemente. Durante las últimas dos semanas, mis registros afirmaron que visitaron 33 asistentes de IA, un poco más que dos por día. Ese número es mentira. ¿El número real? Seis.

El robot de Google tenía peor aspecto. De 799 solicitudes que llevaban su nombre, sólo 107 eran reales, aunque todos sabemos que a los estafadores les encanta falsificar al robot de Google. Y algunas de esas visitas falsas de IA, mientras llevaban el nombre de ChatGPT, pidieron a mi servidor que les entregara su archivo secreto.

Administro esta nueva plataforma y hasta ahora no he gastado ningún dólar en promocionarla, por lo que el tráfico sigue siendo modesto. Busqué una lectura silenciosa y precisa de quién (robots y rastreadores, ya que Google Analytics 4 se encarga del resto) estaba visitando, esperando números pequeños, y los obtuve. Lo que no esperaba era que la mayoría de estas modestas cifras fueran mentiras. Esto es lo que sucedió, cómo verifiqué, cómo perseguí los casos difíciles hasta probarlos y por qué lo más útil que puede hacer esta semana es ejecutar la misma verificación en sus propios registros.

Lo que nadie controla

Cuando un bot busca su página, anuncia un nombre. Usuario de ChatGPT. Claude-Usuario. Robot de Google. CCBot, o quien diga ser. Su servidor escribe ese nombre en el registro, sus análisis lo cuentan y usted saca conclusiones de él.

El nombre es autoinformado, simplemente una cadena en el encabezado de la solicitud, y cualquiera puede poner lo que quiera allí. Afirmar ser Googlebot no cuesta nada y no prueba nada. Hay un extraño en su puerta con uniforme de repartidor, y el uniforme es fácil de falsificar.

El verdadero control no es complicado. Los principales operadores publican las direcciones IP reales que utilizan sus bots, como archivos simples que puede abrir ahora mismo, y una solicitud es legítima sólo si el nombre coincide y la dirección se encuentra dentro de la lista publicada. El nombre es el reclamo. La propiedad intelectual es la prueba.

  • Usuario de ChatGPT https://openai.com/chatgpt-user.json
  • Claude (todos los robots) https://claude.com/crawling/bots.json
  • Usuario de perplejidad https://www.perplexity.com/perplexity-user.json
  • Robot de Google https://developers.google.com/static/crawling/ipranges/common-crawlers.json
  • CCBot https://index.commoncrawl.org/ccbot.json

Construí mi cheque con tres resultados, no dos. Verificado significa que la IP está en el rango publicado. Falsificado significa que los rangos están cargados y la IP no está en ellos. No verificable significa que no pude determinarlo porque no se pudo cargar una lista o faltaba un registro. Nunca llamo algo falso solo porque no pude confirmarlo, y luego esa moderación es exactamente lo que mantuvo una investigación honesta el tiempo suficiente para llegar a la verdad.

La verificación es de aproximadamente 15 líneas de Python usando solo la biblioteca estándar, porque decidir si una dirección se encuentra dentro de un rango de red es un problema resuelto.

import ipaddress, json, urllib.request

# A vendor’s published list of the IPs its bot really uses.

url = “https://openai.com/chatgpt-user.json”

data = json.loads(urllib.request.urlopen(url).read())

# Pull every address range out of the file.

nets = ()

def collect(node):

if isinstance(node, dict):

for v in node.values():

collect(v)

elif isinstance(node, list):

for v in node:

collect(v)

elif isinstance(node, str):

try:

nets.append(ipaddress.ip_network(node, strict=False))

except ValueError:

pass

collect(data)

# A request claiming to be ChatGPT-User is only real if its

# source IP sits inside one of those ranges.

def is_real(ip):

addr = ipaddress.ip_address(ip)

return any(addr in net for net in nets)

Ese fragmento es el corazón del cheque, no todo. Es una biblioteca estándar y de solo lectura, pero no es un verificador terminado. Tal como está escrito, carga la lista de un proveedor, por lo que por sí solo marcaría erróneamente cada solicitud real de Claude, Perplexity y Google como falsa. Una versión funcional envuelve este núcleo en cuatro cosas que el ejemplo omite: lee sus líneas de registro reales en lugar de una dirección codificada, asigna cada nombre de bot a su propia lista publicada, agrega el estado no verificable para los casos en que una lista no puede resolverse y recurre al DNS inverso para un operador como Common Crawl que se apoya en él.

LEER  Cómo implementar la navegación facetada sin dañar la eficiencia de rastreo

La brecha de demanda

Comience con la señal de demanda, las solicitudes que no provienen de un rastreo programado sino de un asistente que busca mi página en vivo durante la sesión de un usuario real. Eso es lo que marcan los nombres de estos agentes: una búsqueda activada en tiempo real por alguien que usa el asistente, no el fondo de rutina que rastrea todo lo demás que se hace aquí. Lo que el registro no puede decirme es qué buscaba esa persona, si preguntó por mi nombre o algo más amplio donde mi página fue arrastrada para fundamentar una respuesta, así que no reclamaré ninguna de las dos cosas. Lo que puedo decir es que 33 solicitudes llevaban uno de esos nombres de búsqueda en vivo. Seis procedían de una IP que publica el proveedor. Veintisiete no lo hicieron. Esa es una tasa de suplantación del 81,8% entre las solicitudes que pude verificar.

Las falsificaciones se delataban por el lugar al que iban. Un asistente real para buscar llega a una página real. Los falsificados, que todavía llevaban el nombre del asistente, fueron a buscar .env.production, secrets.yaml y config.json. Nadie le pidió a un asistente que leyera mis variables de entorno. Eran escáneres de credenciales que tomaban prestado un nombre confiable para burlar los filtros, y la verificación de IP los detectó a todos.

Mantenga estos números sin apretar. Seis verificados son sólo seis, un pequeño sitio nuevo en 14 días, y no se puede construir una teoría sobre una muestra tan delgada. Trátelo como mi punto de partida, no como un hallazgo sobre el mundo. Tus números importarán mucho más que los míos.

El número mayor, que no es noticia

De 799 solicitudes que llevaban el nombre de Googlebot, sólo 107 procedían de una dirección verificada de Google. Los otros 692, aproximadamente el 87%, no eran Google.

Esto no es un descubrimiento. Googlebot ha sido el nombre más suplantado en la web durante la mayor parte de dos décadas, que es exactamente la razón por la que Google publica sus rangos y le dice que verifique por IP en lugar de confiar en la cadena. Lo que hacen los datos es confirmar el patrón y mostrar su escala en un sitio nuevo sin tráfico del que hablar. El nombre del rastreador más confiable genera la mayor cantidad de suplantaciones, y lo hace de inmediato. Algunas falsificaciones incluso utilizaron cadenas de Googlebot vinculadas a productos que Google retiró hace años, un escáner que copiaba un antiguo agente de usuario de una lista y nunca miraba hacia atrás.

Así que el recordatorio se mantiene, por antiguo que sea. La línea del robot de Google en sus registros no es un número de Google. Es un número que “dice ser Google” y la brecha puede ser enorme.

Dos juegos diferentes

Primero una aclaración, porque los números están a punto de ser mayores. Hasta ahora todo contaba la demanda: Live busca que un asistente haga durante una conversación real, los agentes cuyos nombres terminan en -Usuario. Lo que sigue es una población separada, los rastreadores programados que indexan y entrenan en segundo plano, y son robots diferentes. ChatGPT-User no es GPTBot y Claude-User no es ClaudeBot. Por lo tanto, estos recuentos son mayores que los seis y no se superponen con ellos. Si se eliminan las falsificaciones, el rastreo verificado cuenta una historia más interesante que las búsquedas por demanda, porque los propios rastreadores juegan dos juegos diferentes que la gente agrupa.

Algunos hacen recuperación. Construyen el índice que se incluye en la respuesta actual. Cuando una persona le hace una pregunta a un asistente y este busca fuentes actuales, esta es la maquinaria detrás de eso. La recuperación se trata de si te presentas esta semana.

Otros hacen entrenamiento. Recolectan contenido que puede incorporarse a los pesos del siguiente modelo. Cuando un rastreador de capacitación accede a su página, esa no es una visita que usted mide en tráfico de referencia. Es un depósito en un corpus utilizado para construir modelos que responderán preguntas durante años, a menudo sin volver a buscarlo. La recompensa se retrasa, se acumula y es invisible para todos los paneles de control que posee.

LEER  5 nuevos desafíos de clasificación de SEO que enfrenta en este momento (y una solución)

Aquí están mis datos de rastreo verificados (dos semanas, un sitio nuevo, una instantánea y nada más). El rastreador verificado más activo en mi dominio no era Google. Fue ClaudeBot de Anthropic con 166 rastreos confirmados, por delante del Googlebot verificado con 107, con GPTBot de OpenAI con 46 y su rastreador de búsqueda con 40 detrás. ¿Es eso una tendencia? No, son 14 días en un sitio del que nadie ha oído hablar. Pero vale la pena ver la composición, porque quién gasta el presupuesto de rastreo en un dominio nuevo y no promocionado es el tipo de señal que se vuelve estratégica una vez que el volumen es real.

La recuperación es su visibilidad hoy. El entrenamiento es si el modelo te conoce mañana, sin tener que buscarte en absoluto. La mayoría de las mediciones se centran en el primero. El segundo es más silencioso, podría decirse que es más importante y casi nadie lo ve.

El que tenía que perseguir: CCBot

Lo que me lleva a lo que podría ser el rastreador de entrenamiento más importante de todos y el mejor ejemplo de por qué existe esa columna no verificable. Common Crawl, obtenido por CCBot, produce el conjunto de datos abiertos que se encuentra debajo de una gran parte de los modelos entrenados en los últimos años. Entonces, cuando mi informe mostró que CCBot estaba en cero verificado, cuatro falsificados y dieciséis no verificables, los 16 me molestaron. Swings no verificados en ambos sentidos. No significa falso ni real. Significa ir a descubrirlo. Así lo hice, y la ruta es una que puedes copiar.

Primero, la lista publicada. Common Crawl publica los rangos de IP de su rastreador y ninguna de las 20 solicitudes etiquetadas con CCBot se encuentra dentro de ellos.

En segundo lugar, DNS inverso. Real CCBot se resuelve en un nombre de host de commoncrawl.org. Cuatro de los míos resolvieron algo que no era Common Crawl, y los otros dieciséis no tenían ningún registro inverso, razón por la cual el guión no respondía precisamente por ellos.

En tercer lugar, el corpus mismo. Common Crawl ejecuta un índice público donde puede preguntar si se ha capturado un dominio. Revisé los tres rastreos mensuales más recientes de mi dominio, con comodines, por lo que no solo estaba buscando coincidencias con la página de inicio. Nada.

Cuarto, propiedad. Saqué las IP sin procesar de mis registros y realicé una búsqueda de WHOIS en cada una. Cada uno de ellos tiene su origen en el alojamiento de productos básicos en varios países (la mayoría en Europa), en los que se ejecutan los escáneres de infraestructura alquilados a bajo precio.

Cuatro ángulos independientes, una respuesta. Los 20 eran impostores. El punto de enseñanza es la parte que un SEO apreciará. El control automatizado se negó correctamente a calificar a esos 16 como falsos, ya que un registro ausente no es evidencia de fraude, y fue necesario realizar una investigación manual para cerrar el círculo. Entonces, cuando su propio informe muestra filas no verificables, no es un callejón sin salida. Es una invitación: extraiga las IP, verifique el propietario, verifique el corpus y la imagen se resuelve.

El que no pude medir: Géminis

Hay un jugador importante que no pude medir en absoluto, y la razón es el punto. Géminis.

OpenAI, Anthropic y Perplexity exponen señales distintas y verificables. Puede separar su rastreador de entrenamiento de su rastreador de recuperación de su búsqueda en vivo impulsada por el usuario y confirmar cada uno por IP. Google no funciona de esta manera. Hay un rastreo del robot de Google. Si el contenido que recopila alimenta la capacitación de Gemini se rige por un token robots.txt llamado Google-Extended, que no es un rastreador. Nunca recupera nada. Es una marca de permiso en un rastreo que ya ocurrió. No hay ningún buscador de Gemini en sus registros por diseño, por lo que no hay forma de medir la demanda de Gemini por nombre, como puede hacerlo con ChatGPT o Claude.

LEER  Chrome advertirá a los usuarios antes de cargar sitios HTTP a partir del próximo año

Mi guión lo buscó. No encontró nada que dijera ser Géminis, lo que indica que ni siquiera los imitadores se han molestado con ese nombre. Detectó cuatro solicitudes que se anunciaban como Google-Extended mientras buscaba páginas, y dado que Google-Extended no puede buscar, esas cuatro son falsas a primera vista, refutadas solo por el nombre antes de que se ejecute cualquier verificación de IP.

Si has hecho este trabajo tanto tiempo como yo, esto te resulta familiar. En 2011, Google cifró las referencias de búsqueda y los datos de palabras clave de los que dependíamos se colapsaron en «(no proporcionado)». La granularidad desapareció y nos entregaron una bandera en lugar de una medición. La era de la IA se está imitando. Mientras que sus competidores exponen el entrenamiento, la recuperación y la demanda como eventos separados y verificables, Google los agrupa en un único rastreo y un token invisible. Puede confirmar Googlebot, y nada más allá, y el resto, una vez más, no se proporciona.

2 asteriscos honestos

La perplejidad es más turbia que un aprobado o un fracaso limpio. Su rastreador falló mi verificación de IP en 24 de 36 solicitudes, pero se ha documentado que Perplexity obtiene direcciones fuera de sus propios rangos publicados, por lo que algunas fallas pueden ser imitadores y otras pueden ser que Perplexity esté operando fuera de la lista. Para éste, falsificar es ambiguo en ambas direcciones. Y nuevamente, todo esto son dos semanas de datos en un sitio pequeño.

Vaya a crear su propia línea de base

No tomes mis números; Toma el método.

Mis datos son escasos porque mi sitio es nuevo y el suyo probablemente no lo sea. Si tiene tráfico real, se encuentra en un conjunto de datos mucho mejor que el mío, en sus propios registros de acceso, en este momento, y puede ejecutar esta verificación esta tarde. Obtenga un rango de fechas, haga coincidir los nombres, verifique las IP con las listas publicadas y encuentre su fracción real. Luego mire su línea de Googlebot y prepárese.

Cuando llegues a filas no verificables, haz lo que hice con CCBot. Extraiga las IP, verifique el propietario, consulte el corpus y persígalo hasta que se resuelva la imagen. No hay nada que le guste más a un SEO que ejecutar pruebas, y este es un lugar rico en objetivos para hacerlo.

Lo que estás midiendo y lo que no

Piense en lo que le dice y lo que no le dice incluso un número verificado. Un rastreo confirmado le indica que un robot real tomó su contenido. No le dice qué sucedió después: si su página terminó en la respuesta que vio una persona, si fue citado, parafraseado sin crédito o excluido por completo, o si el modelo que lo utilizó alguna vez sacará a la luz su nombre o lo absorberá silenciosamente y seguirá adelante. La búsqueda es la visita. El resultado es una cuestión aparte.

Esa brecha, entre ser buscado y ser utilizado, es la pregunta en la que dedico mis días y es la razón por la que construí CitationIQ.

Si ejecuta esto en sus propios registros, responda y dígame dos números: su tasa de suplantación de demanda y la del robot de Google.

Más recursos:


Esta publicación se publicó originalmente en Duane Forrester Decodes.


Imagen de portada: Prostock-studio/Shutterstock; Paulo Bobita/Diario del motor de búsqueda

--Advertisement--spot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

spot_img

Popular

spot_img

Más como esto
Relacionada

Un tercio de las fintech es invisible para los agentes de...

Un tercio de los principales sitios web de tecnología...

Google responde a una pregunta sobre SEO para agentes de IA

John Mueller de Google respondió a una pregunta sobre...

Google Gemini ahora puede controlar su computadora. Los piratas informáticos ya...

Google ha trasladado el “uso de la computadora” de...

El mensaje de su marca le está costando la mitad de...

La mayor parte de lo que se escribe sobre...