Los clics como señal relacionada con la clasificación han sido un tema de debate durante más de veinte años, aunque hoy en día la mayoría de los SEO entienden que los clics no son un factor directo de clasificación. La simple verdad sobre los clics es que son datos sin procesar y, sorprendentemente, se procesan con cierta similitud con las puntuaciones de los evaluadores humanos.
Los clics son una señal cruda
El memorando de opinión antimonopolio del Departamento de Justicia de septiembre de 2025 menciona los clics como una “señal bruta” que utiliza Google. También clasifica el contenido, las puntuaciones de los evaluadores humanos y las consultas de búsqueda como señales sin procesar. Esto es importante porque una señal sin procesar es el punto de datos de nivel más bajo. Las señales sin procesar generalmente se procesan en señales de clasificación de nivel superior o se usan para entrenar un modelo como RankEmbed y su sucesor, RankEmbedBERT.
Se consideran señales sin procesar porque son:
- Observado directamente
- Pero aún no se ha interpretado ni utilizado para datos de entrenamiento.
El documento del Departamento de Justicia cita al profesor James Allan, quien brindó testimonio experto en nombre de Google:
«Las señales varían en complejidad. Hay señales «en bruto», como el número de clics, el contenido de una página web y los términos dentro de una consulta.
…Estas señales se pueden crear con métodos simples, como contar las ocurrencias (por ejemplo, cuántas veces se hizo clic en una página web en respuesta a una consulta particular). Identificación.
en 2859:3–2860:21 (Allan) (discutiendo la señal Navboost) “
Luego contrasta las señales sin procesar con las señales «en el otro extremo del espectro»:
“En el otro extremo del espectro se encuentran los modelos innovadores de aprendizaje profundo, que son modelos de aprendizaje automático que distinguen patrones complejos en grandes conjuntos de datos.
Los modelos profundos encuentran y explotan patrones en vastos conjuntos de datos. Añaden capacidades únicas a un alto costo”.
El profesor Allan explica que se utilizan “señales de alto nivel” para producir las puntuaciones “finales” de una página web, incluidas la popularidad y la calidad.
Las señales sin procesar son datos que se procesarán posteriormente
Navboost se menciona varias veces en el documento antimonopolio de septiembre de 2025 como datos de popularidad. No se menciona en el contexto de que los clics tengan un efecto de clasificación en sitios individuales.
Se conoce como una forma de medir la popularidad y la intención:
«… popularidad medida por la intención del usuario y los sistemas de retroalimentación, incluido Navboost/Glue…»
Y en otro lugar, en el contexto de explicar por qué algunos de los datos de Navboost son privilegiados:
«Son ‘popularidad medida por la intención del usuario y los sistemas de retroalimentación, incluido Navboost/Glue’…»
En el contexto de explicar por qué algunos de los datos de Navboost tienen privilegios:
“Según la solución propuesta, Google debe poner a disposición de los Competidores Calificados… los siguientes conjuntos de datos:
1. Datos del lado del usuario utilizados para construir, crear u operar los modelos estadísticos GLUE;
2. Datos del lado del usuario utilizados para entrenar, construir u operar los modelos RankEmbed; y
3. Los Datos del lado del Usuario utilizados como datos de entrenamiento para los Modelos GenAI utilizados en la Búsqueda o cualquier Producto GenAI que pueda usarse para acceder a la Búsqueda.
Google utiliza los dos primeros conjuntos de datos para generar señales de búsqueda y el tercero para entrenar y refinar los modelos subyacentes a AI Overviews y (posiblemente) la aplicación Gemini”.
Los clics, al igual que las puntuaciones de los evaluadores humanos, son solo una señal sin procesar que se utiliza más arriba en la cadena del algoritmo (por ejemplo, para entrenar modelos de IA) para mejorar la coincidencia de las páginas web con las consultas o para generar una señal de calidad o relevancia que luego se agrega al resto de las señales de clasificación utilizadas por un motor de clasificación o un motor modificador de clasificación.
Cómo se utilizan normalmente las señales sin procesar
70 días de registros de búsqueda
El documento del DOJ hace referencia al uso de 70 días de registros de búsqueda. Pero eso son sólo once palabras en un contexto más amplio.
Aquí está la parte que se cita con frecuencia:
«70 días de registros de búsqueda más puntuaciones generadas por evaluadores humanos»
Lo entiendo, es simple y directo. Pero hay más contexto:
«RankEmbed y su versión posterior RankEmbedBERT son modelos de clasificación que se basan en dos fuentes principales de datos: (redactado)% de 70 días de registros de búsqueda más puntuaciones generadas por evaluadores humanos y utilizadas por Google para medir la calidad de los resultados de búsqueda orgánicos».
Los 70 días de registros de búsqueda no son datos de clics utilizados con fines de clasificación en Google, AI Mode o Gemini. Son datos agregados los que se procesan aún más para entrenar modelos de inteligencia artificial especializados como RankEmbedBERT que, a su vez, clasifican las páginas web según el análisis del lenguaje natural.
Esa parte del documento del DOJ no afirma que Google esté utilizando directamente datos de clics para clasificar los resultados de búsqueda. Son datos, como los datos del evaluador humano, los que utilizan otros sistemas para entrenar datos o para procesarlos posteriormente.
¿Qué es RankEmbed de Google?
RankEmbed es un enfoque de lenguaje natural para identificar documentos relevantes y clasificarlos.
El mismo documento del DOJ explica:
«El modelo RankEmbed en sí es un sistema de aprendizaje profundo basado en inteligencia artificial que tiene una sólida comprensión del lenguaje natural. Esto permite que el modelo identifique de manera más eficiente los mejores documentos para recuperar, incluso si una consulta carece de ciertos términos».
Está entrenado con menos datos que los modelos anteriores. Los datos se componen parcialmente de términos de consulta y pares de páginas web:
“…RankEmbed se entrena con 1/100 de los datos utilizados para entrenar modelos de clasificación anteriores, pero proporciona resultados de búsqueda de mayor calidad.
…Entre los datos de entrenamiento subyacentes se encuentra información sobre la consulta, incluidos los términos destacados que Google ha derivado de la consulta y las páginas web resultantes”.
Se trata de datos de entrenamiento para entrenar un modelo para reconocer cómo los términos de consulta son relevantes para las páginas web.
El mismo documento explica:
«Los datos subyacentes a los modelos RankEmbed son una combinación de datos de hacer clic y consultar y puntuación de páginas web por parte de evaluadores humanos».
Está muy claro que en el contexto de este pasaje específico, se describe el uso de datos de clics (y datos de evaluadores humanos) para entrenar modelos de IA, no para influir directamente en las clasificaciones.
¿Qué pasa con la patente de clasificación de clics de Google?
Allá por 2006, Google presentó una patente relacionada con los clics llamada, Modificar la clasificación de los resultados de búsqueda en función de los comentarios implícitos de los usuarios. La invención trata sobre la fórmula matemática para crear una «medida de relevancia» a partir de los datos brutos agregados de clics (plural).
La patente distingue entre la creación de la señal y el acto de clasificación en sí. La “medida de relevancia” se envía a un motor de clasificación, que luego puede agregarla a las puntuaciones de clasificación existentes para clasificar los resultados de búsqueda para nuevas búsquedas.
Esto es lo que describe la patente:
“Un subsistema de clasificación puede incluir un motor modificador de clasificación que utiliza comentarios implícitos de los usuarios para provocar una reclasificación de los resultados de búsqueda con el fin de mejorar la clasificación final.
presentado a un usuario de un sistema de recuperación de información.Las selecciones de resultados de búsqueda por parte del usuario (datos de clics) se pueden rastrear y transformar en una fracción de clics que se puede utilizar para reclasificar resultados de búsqueda futuros”.
Esa «fracción de clics» es una medida de relevancia. La invención descrita en la patente no se trata de rastrear el clic; se trata de la medida matemática (la fracción de clics) que resulta de combinar todos esos clics individuales. Eso incluye el clic corto, el clic medio, el clic largo y el último clic.
Técnicamente, se llama fracción LCIC (clic largo dividido por clics). Es «clics» en plural porque se toman decisiones basadas en la suma de muchos clics (agregados), no en el clic individual.
Esa fracción de clics es un agregado porque:
- Suma:
El «primer número» utilizado para la clasificación es la suma de todos esos clics ponderados individuales para un par de consulta-documento específico. - Normalización:
Toma esa suma y la divide por el recuento total de todos los clics (el «segundo número»). - Suavizado estadístico:
El sistema aplica «factores de suavizado» a este número agregado para garantizar que un solo clic en una consulta «poco común» no sesgue injustamente los resultados, especialmente para los spammers.
Esa patente de 2006 describe su fórmula de ponderación de la siguiente manera:
“Una fracción de clic de LCC base se puede definir como:
LCC_BASE=(#WC(Q,D))/(#C(Q,D)+S0)
donde iWC(QD) es la suma de clics ponderados para un par de URL de consulta…, iC(QD) es el número total de clics (recuento ordinal, no ponderado) para el par de URL de consulta y S0 es un factor de suavizado.
Esa fórmula describe la suma y división de los datos de muchos usuarios para crear una puntuación única para un documento. El par «consulta-URL» es un «depósito» de datos que almacena el comportamiento de clic de cada usuario que alguna vez escribió esa consulta específica e hizo clic en ese resultado de búsqueda específico. El factor de suavizado es la parte antispam que incluye no contar los clics individuales en consultas de búsqueda raras.
Incluso allá por 2006, los clics son simplemente datos sin procesar que se transforman más arriba en la cadena a través de múltiples etapas de agregación, en una medida estadística de relevancia antes de llegar a la etapa de clasificación. En esta patente, los clics en sí no son factores de clasificación que influyan directamente en la clasificación de un sitio o no. Se utilizaron en conjunto como una medida de relevancia, que a su vez se introdujo en otro motor de clasificación.
Cuando la información llega al motor de clasificación, los datos sin procesar se han transformado de acciones de usuarios individuales en una medida agregada de relevancia.
- Pensar en los clics en relación con la clasificación no es tan simple como que los clics impulsan las clasificaciones de búsqueda.
- Los clics son solo datos sin procesar.
- Los clics se utilizan para entrenar sistemas de inteligencia artificial como RankEmbedBert.
- Los clics no influyen directamente en los resultados de búsqueda. Siempre han sido datos sin procesar, el punto de partida de los sistemas que utilizan los datos en conjunto para crear una señal que luego se mezcla con los sistemas de toma de decisiones de clasificación en Google.
- Entonces, sí, al igual que los datos de los evaluadores humanos, los datos sin procesar se procesan para crear una señal o entrenar sistemas de inteligencia artificial.
Lea el memorando del DOJ en formato PDF aquí.
Lea acerca de cuatro artículos de investigación sobre CTR.
Lea la patente de Google de 2006, Modificación de la clasificación de los resultados de búsqueda en función de los comentarios implícitos de los usuarios.
Imagen destacada de Shutterstock/Carkhe


