Por qué el problema del spam de Google está empeorando

--Advertisement--

El spam vuelve a estar en la búsqueda. Y a lo grande.

Honestamente, no creo que Google pueda manejar esto en absoluto. La escala no tiene precedentes. Persiguieron manualmente a los editores con la actualización del abuso de reputación del sitio. Más abuso de dominios caducados están llegando a la cima de las SERP que en cualquier otro momento de la historia reciente. Están librando una batalla perdida y han perdido la vista.

En un microcosmos, esto es lo que está sucediendo (Crédito de la imagen: Harry Clarkson-Bennett)

Hace unos años, la búsqueda se estaba ocupando de los diversos problemas de spam que estaban probando los SEO «creativos». La perspectiva de verse debilitado por una actualización de spam y la voluntad de Google de invertir y cuidar la calidad de la búsqueda parecían estar ganando la guerra. Tratar de recuperarse de estas sanciones es nada menos que desastroso. Pregúntele a cualquiera que se haya visto afectado por la actualización de Contenido útil.

Pero las cosas han cambiado. La IA está reescribiendo las reglas al azar, y las grandes tecnológicas tienen peces más grandes y venenosos que freír. Este no es un buen momento para ser un SEO de sombrero blanco.

TL;DR

Actualmente, Google está perdiendo la guerra contra el spam, con una escala sin precedentes impulsada por el desperdicio generado por la IA y el abuso de dominios caducados y PBN.
La detección de spam de Google monitorea cuatro grupos clave de señales: contenido, enlaces, reputación y comportamiento.
Los datos de Google Leak sugieren que su detección más capaz se centra en velocidad del enlace y texto de anclaje.
La “búsqueda” mediante IA es decenas de veces más cara que la búsqueda tradicional. Este enorme costo y enfoque en nuevos productos de IA está generando una inversión insuficiente en la lucha contra el spam.

¿Cómo funciona el sistema de detección de spam de Google?

Vía SpamBrain. Anteriormente, el gigante de las búsquedas lanzó Penguin, Panda y RankBrain para tomar mejores decisiones basadas en enlaces y palabras clave.

Y ahora mismo, mal.

SpamBrain está diseñado para identificar contenido y sitios web que participan en actividades de spam con una precisión aparentemente «impactante». No sé si lo impactante en este sentido se entiende ahora de manera positiva o negativa, pero sólo puedo repetir lo que se dice.

Con el tiempo, el algoritmo aprende qué es y qué no es spam. Una vez que ha establecido claramente las señales asociadas con los sitios con spam, puede crear una red neuronal.

Al igual que el concepto de sitios semilla, si tiene mapeados los sitios web con más spam, puede calificar con precisión a todos los demás en comparación con ellos. Luego, puede analizar señales a escala (contenido, enlaces, señales de comportamiento y reputación) para agrupar sitios.

Entradas (contenido, vinculación de señales reputacionales y de comportamiento).
capa oculta (agrupar y comparar cada sitio con los de spam conocidos).
Salidas (spam o no spam).

Si su sitio está incluido en el mismo grupo que sitios obviamente con spam en lo que respecta a cualquiera de los anteriores, no es una buena señal. El algoritmo funciona sobre umbrales. Me imagino que necesitas navegar bastante cerca del viento durante el tiempo suficiente para recibir una actualización de spam.

Pero si su contenido es relativamente escaso y de bajo valor agregado, probablemente esté a medio camino. Agregue algunos enlaces peligrosos a la mezcla, algunas malas decisiones comerciales (el SEO parásito es el ejemplo más obvio) y un abuso de contenido a gran escala, y estará condenado.

¿De qué tipo de spam estamos hablando aquí?

Google señala aquí las actividades más atroces. Estamos hablando:

Encubierto.
Abuso de puerta.
Abuso de dominio caducado.
Contenido pirateado.
Texto y contenido ocultos.
Relleno de palabras clave.
Enlace spam.
Abuso de contenido escalado.
Abuso de reputación del sitio.
Contenido de afiliado reducido.
Spam CGU.

Muchos de ellos están tremendamente entrelazados. Abuso de dominio caducado y PBN. El relleno de palabras clave es un poco anticuado, pero el spam de enlaces sigue vivo y coleando. El abuso de contenido a escala está en su punto más alto en Internet.

Cuanto más contenido haya distribuido en varios sitios web semánticamente similares, más eficaz podrá ser. Al utilizar anclajes de coincidencia exacta y parcial para aprovechar su autoridad hacia las páginas de «dinero», más rico se volverá.

Profundicemos en los más importantes a continuación.

Noticias falsas

Google Discover, la plataforma ligera de red social de Google para atraer la participación, ha sido atacada por spammers sin escrúpulos en los últimos tiempos. Ha habido varios casos de contenido falso impulsado por IA que ha llegado a las masas. Se ha vuelto tan frecuente que incluso ha llegado a sitios de medios tradicionales (woohoo).

LEER Sociable: cómo maximizar el éxito de los carretes, según Instagram

Se han enviado millones de páginas vistas a abusadores de dominios caducados y descartados (Crédito de la imagen: Harry Clarkson-Bennett)

Desde cambiar la edad de jubilación estatal hasta pases de autobús gratuitos y licencias de televisión, los spammers conocen el mercado. Saben cómo incitar emociones. El infierno no tiene furia como la de un pensionado despreciado, y aunque se puede perdonar algún que otro desliz, nadie puede ser tan generoso.

Las personas que han estado trabajando según las reglas están siendo marginadas. Pero las oportunidades en el mundo del sombrero negro están en auge. Lo cual es, para ser justos, bastante divertido.

Abuso de contenido escalado

En el momento de escribir este artículo, más del 50% del contenido en Internet proviene de IA. Algunos dicen más. De casi un millón de páginas analizadas este año, Ahrefs dice que el 74% contiene contenido de IA. Lo que vemos es justo lo que se cuela por las grietas del tamaño de un mamut.

No es difícil ver cuál es el problema… (Crédito de la imagen: Harry Clarkson-Bennett)

Según la investigación del galardonado periodista Jean-Marc Manach, ha encontrado más de 8.300 sitios web de noticias generados por IA en francés y más de 300 en inglés (la punta del iceberg, créanme).

Estima que dos de estos propietarios de sitios se han convertido en millonarios.

Al aprovechar dominios autorizados y caducados y PBN (más sobre esto a continuación), los SEO (las personas que todavía arruinan Internet) saben cómo jugar con el sistema. Falsificando clics, manipulando señales de participación y utilizando de manera efectiva la equidad de enlaces anteriores.

Abuso de dominio caducado

El gran papá. Zona cero del sombrero negro.

Si interactúa aunque sea un poco con una comunidad de sombrero negro, sabrá lo fácil que es ahora aprovechar dominios caducados. En el siguiente ejemplo, alguien compró el sitio web London Road Safety (un dominio que alguna vez tuvo mucha autoridad) y lo convirtió en un sitio de una sola página con los «mejores sitios de apuestas que no están en GamStop».

Este es solo un ejemplo de muchos (Crédito de la imagen: Harry Clarkson-Bennett)

Las apuestas y las criptomonedas son la zona cero de todo lo relacionado con el sombrero negro, simplemente porque hay mucho dinero involucrado.

No soy un experto aquí, pero creo que el proceso es el siguiente:

Compre un dominio valioso y caducado con un historial de vínculos de retroceso sólido y limpio (sin penalizaciones manuales). Idealmente, algunos de ellos.
Luego, puede comenzar a crear su propia PBN con proveedores de alojamiento, servidores de nombres y direcciones IP únicos, con una variedad de dominios autorizados, antiguos y más nuevos.
Este dominio se convierte entonces en su bastión de capital/autoridad.
Crea múltiples variaciones de TLD del dominio, es decir, en lugar de .com se convierte en .org.uk.
Agregue una combinación de anclajes de coincidencia exacta y parcial de una PBN al sitio de dinero para señalar su nuevo enfoque.
Agregue una redirección 301 por un corto período de tiempo a la variación monetaria del dominio o canonicalice la variación.

Estas estafas son siempre jugadas a corto plazo. Pero pueden valer decenas de cientos de miles de libras si se hacen bien. Y han vuelto, y creo que son más valiosos que nunca.

En este momento, creo que es tan simple como comprar un antiguo dominio benéfico, agregarle un cambio rápido y listo. Una táctica 301 o de aprobación de acciones y su sitio de una sola página sobre «los mejores casinos que no están en gamstop» está imprimiendo dinero. Incluso en el mercado de habla inglesa.

Según el famoso sombrero negro Charles Floate, algunas de estas empresas están blanqueando cientos de miles de libras al mes.

PBN

Una PBN (o red privada de blogs) es una red de sitios web que alguien controla y que enlazan con el sitio del dinero. La variación del sitio diseñada para generar típicamente publicidad o ingresos de afiliados.

Una red de blogs privados tiene que ser completamente única entre sí. No pueden compartir rutas de navegación que Google pueda rastrear. Cada sitio necesita un independiente:

Proveedor de alojamiento.
Dirección IP.
Servidor de nombres.

La razón por la que las PBN son tan valiosas es que puedes acumular una enorme cantidad de valor de vínculo y autoridad temática falsificada para mitigar el riesgo. Los dominios caducados son riesgosos porque son caros y, una vez que reciben una penalización, están condenados. Las PBN distribuyen el riesgo. Como la cabeza de una hidra, uno muere; otro se levanta.

Proteger el activo de nivel 1 (el dominio antiguo o vencido comprado) es primordial. En lugar de dirigir enlaces directamente al sitio de dinero, puede enlace a los sitios que enlazan al sitio de dinero.

Esto aumenta indirectamente el valor del sitio, protegiéndolo de las miradas indiscretas de Google.

¿Qué muestra la filtración de Google sobre el spam?

Como siempre, esta es una ciencia inexacta. En realidad, apenas se trata de pseudociencia. Tengo puesto el sombrero de papel de aluminio y un montón de cuerdas que conectan fragmentos salvajes de información por toda la habitación para que esto funcione. Deberías seguir a Shaun Anderson aquí.

LEER Cómo usar Sitemaps XML para impulsar SEO

Si tomo todas las menciones de la palabra «spam» en los nombres y descripciones de los módulos, hay alrededor de 115, una vez que he eliminado todas las tonterías. Luego podemos clasificarlos en contenido, enlaces, señales de reputación y de comportamiento.

Yendo un paso más allá, estos módulos se pueden clasificar como relacionados con cosas como construcción de enlaces, texto ancla, calidad del contenido, etc. Esto nos da una idea aproximada de lo que importa en términos de escala.

El texto de anclaje constituye la mayor parte de los módulos de spam según los datos de Google Leak (y mi propia categorización defectuosa) (Crédito de la imagen: Harry Clarkson-Bennett)

Algunos ejemplos:

spambrainTotalDocSpamScore Calcula la puntuación general de spam de un documento.
IndexaciónDocjoinerAnchorPhraseSpamInfo y Módulos IndexingDocjoinerAnchorSpamInfo Identifique frases ancla de spam observando el número, la velocidad, los días en que se descubrieron los enlaces y la hora en que terminó el pico.
GeostoreSourceTrustProto Ayuda a evaluar la confiabilidad de una fuente.

Realmente, la conclusión es lo importantes que son los enlaces desde el punto de vista del spam. Particularmente, texto de anclaje. La velocidad a la que ganas enlaces es importante. Al igual que el texto y el contenido circundante. Los enlaces parecen ser donde el algoritmo de Google es más capaz de identificar señales de alerta y señales de alerta.

Si su gráfico de velocidad de enlace aumentó con anclajes de coincidencia exacta a páginas altamente comerciales, eso es una señal de alerta. Una vez que se hace ping a un sitio para detectar este tipo de contenido o abuso relacionado con enlaces, las señales de comportamiento y reputación se analizan como parte de SpamBrain.

Si estos lo corroboran y su sitio supera ciertos umbrales, está condenado. Es por eso que esto ha sido (hasta hace poco) un arte relativamente bello.

En última instancia, simplemente están invirtiendo menos en la búsqueda tradicional

Como señaló Martin McGarry, simplemente les importa un poco menos… Tienen peces más grandes y más alucinógenos que freír.

Crédito de la imagen: Harry Clarkson-Bennett

En 2025 hemos tenido cuatro actualizaciones, con una duración de c. 70 días. En 2024 tuvimos siete que duraron casi 130 días. Niveles de productividad a los que todos podemos aspirar.

No es difícil adivinar por qué…

La experiencia de búsqueda de vanguardia está cambiando. Google está implementando fuentes de editores preferidos a nivel mundial y enlaces en línea de manera más efectiva en sus productos de inteligencia artificial. Cambios muy necesarios.

Creo que estamos viendo el moldeado en tiempo real de la nueva experiencia de búsqueda en la forma de la Guía web de Google. Una combinación personalizada de fuentes confiables, modo AI, una interfaz de búsqueda más clásica y algo inspirador. Sospecho que esto podría parecerse un poco a un feed Discover-lite. Un lugar en la interfaz de búsqueda tradicional donde se le proporciona contenido que seguramente le gustará para mantenerlo interesado.

Sin confirmar, pero aparentemente, Google ha agregado señales de recomendación basadas en personas y una capa de entidad de editor privado, entre otras cosas. Creo que agrupar a los usuarios en cohortes es una parte fundamental de Discover. Es lo que permite que el contenido se vuelva viral.

Una vez que comprenda lo suficiente sobre un usuario como para agruparlo en grupos específicos, podrá saturar un mercado en el transcurso de unos días de Discover. Menos incluso. Pero el problema es la economía de todo esto. Diez enlaces azules son baratos. La IA no lo es. A cualquier nivel.

Según Google, cuando alguien elige una fuente preferida, hace clic en ese sitio con el doble de frecuencia en promedio. Así que sospecho que vale la pena tomarlo en serio.

¿Por qué las búsquedas con IA son mucho más caras?

Google va a gastar este año 10 mil millones de dólares más de lo esperado debido a la creciente demanda de servicios en la nube. En términos interanuales, el gasto de capital de Google es casi el doble de los 52.500 millones de dólares de 2024.

LEER Target trae de vuelta 'Hot Santa' y agrega nuevos personajes al impulso navideño

No es sólo Google. Es una carrera hacia el abismo en Silicon Valley.

Se ha extrapolado el año 2025, pero va camino de generar 92.000 millones de dólares este año (Crédito de la imagen: Harry Clarkson-Bennett)

Si bien Google no ha publicado información pública al respecto, no es ningún secreto que las búsquedas con IA son significativamente más caras que los clásicos 10 enlaces azules. La búsqueda tradicional es en gran medida estática y se basa en la recuperación. Se basa en páginas preindexadas para ofrecer una lista de enlaces y su ejecución es muy económica.

Una descripción general de la IA es generativa. Google tiene que ejecutar un modelo de lenguaje amplio para resumir y generar una respuesta en lenguaje natural. El modo AI es significativamente peor. La interfaz conversacional de múltiples turnos procesa todo el diálogo. además a la nueva consulta.

Dada la técnica de distribución de consultas (donde se ejecutan docenas de búsquedas en paralelo), este proceso exige una potencia computacional significativamente mayor.

Los chips personalizados, la eficiencia y el almacenamiento en caché pueden reducir el costo de esto. Pero este es uno de los mayores desafíos de Google. Sospecho exactamente por qué Barry cree que el modo AI no será la experiencia de búsqueda predeterminada. Me sorprendería que no se aplicara también a nivel de búsqueda/personalización. Hay muchas búsquedas de marca y de navegación en las que esto sería una enorme pérdida de dinero.

Y estos tipos realmente aman el dinero.

Según The IET, si la población de Londres (>9,7 millones) pidiera a ChatGPT que escribiera un correo electrónico de 100 palabras, se necesitarían 4.874.000 litros de agua para enfriar los servidores, lo que equivale a llenar más de siete piscinas de 25 m.

Los LLM ya tienen un problema de spam

Esto está bastante bien documentado. Los LLM parecen estar impulsados, al menos en parte, por el gran volumen de menciones en los datos de capacitación. Todo se ingiere y se toma como leído.

Crédito de la imagen: Harry Clarkson-Bennett

Cuando agrega una línea en su pie de página que describe algo que usted o su empresa hicieron, se considera leído. Las tácticas spam y de baja calidad funcionan más eficazmente que el trabajo pesado.

Idealmente, no viviríamos en un mundo donde las cosas de poca importancia superan a los esfuerzos de marketing adecuados. Pero aquí estamos.

Como en 2012, las listas de los “mejores” están en la punta de la lengua de todos. El SEO básico está regresando porque eso es lo que funciona actualmente en los LLM. Colocaciones pagadas, intercambios recíprocos de enlaces. Lo que sea.

Si está a medias, está regresando.

Como estos modelos se basan en el índice de Google para búsquedas que el modelo no puede responder con confianza (RAG), el motor de spam de Google es más importante que nunca. De la misma manera que creo que los editores deben adoptar una postura contra las grandes tecnologías y la inteligencia artificial, Google debe dar un paso al frente y tomar esto en serio.

No estoy seguro de que alguien vaya a…

Ni siquiera estoy seguro de que quieran hacerlo ahora. OpenAI ha firmado algunos contratos bastante extraordinarios y sus ingresos están a años luz de lo que deberían estar. Y el gasto de capital de Google está por las nubes.

Por lo tanto, aspectos como la calidad y la precisión no están en la parte superior de la lista. La confianza de consumidores e inversores no es tan alta. Necesitan ganar algo de dinero. Y las empresas privadas pueden ser un poco laissez-faire cuando se trata de informar sobre ingresos y ganancias.

Según HSBC, OpenAI necesita recaudar al menos 207 mil millones de dólares para 2030 para poder seguir perdiendo dinero. Ser descrito como «un pozo de dinero con un sitio web encima» no es una buena apariencia.

Se deben destinar nuevos fondos a los centros de datos (Crédito de la imagen: Harry Clarkson-Bennett)

Veamos cómo racionalizan post-hoc su salida de este. Eso es todo. Gracias por leer y suscribirte a mi última actualización del año. Ciertamente ha pasado un año.

Más recursos:

Esta publicación se publicó originalmente en Liderazgo en SEO.

Imagen de portada: Khaohom Mali/Shutterstock

Etiquetas
Marketing
SEO

Artículo anterior

Cómo realizar un seguimiento del recorrido del usuario en GA4 para hacer que los logros de SEO sean más visibles

Artículo siguiente

La actualización de Apple Safari permite el seguimiento de dos métricas principales de Web Vitals

--Advertisement--

DEJA UNA RESPUESTA Cancelar respuesta

Por favor ingrese su comentario!

Por favor ingrese su nombre aquí

¡Has introducido una dirección de correo electrónico incorrecta!

Por favor ingrese su dirección de correo electrónico aquí

Por qué el problema del spam de Google está empeorando

TL;DR

¿Cómo funciona el sistema de detección de spam de Google?