Vectorización y transformadores (no la película)

--Advertisement--

Los sistemas de recuperación de información están diseñados para satisfacer al usuario. Hacer feliz al usuario con la calidad de su recuerdo. Es importante que entendamos eso. Cada sistema y sus entradas y salidas están diseñados para brindar la mejor experiencia de usuario.

Desde los datos de entrenamiento hasta la puntuación de similitud y la capacidad de la máquina para «comprender» nuestras tristes y cansadas tonterías: esta es la tercera parte de una serie que he titulado, recuperación de información para imbéciles.

Crédito de la imagen: Harry Clarkson-Bennett

TL;DR

En el modelo de espacio vectorial, la distancia entre vectores representa la relevancia (similitud) entre los documentos o elementos.
La vectorización ha permitido a los motores de búsqueda realizar búsquedas de conceptos en lugar de búsquedas de palabras. Es la alineación de conceptos, no de letras o palabras.
Los documentos más extensos contienen términos más similares. Para combatir esto, se normaliza la longitud de los documentos y se prioriza la relevancia.
Google ha estado haciendo esto durante más de una década. Quizás desde hace más de una década usted también lo haya hecho.

Cosas que debes saber antes de comenzar

Algunos conceptos y sistemas que debes conocer antes de profundizar.

No recuerdo todo esto, y tú tampoco lo recordarás. Simplemente trate de disfrutar y espere que a través de la ósmosis y la coherencia, recuerde vagamente las cosas con el tiempo.

TF-IDF significa término frecuencia-frecuencia de documento inversa. Es una estadística numérica utilizada en PNL y recuperación de información para medir la relevancia de un término dentro de un corpus de documentos.
Similitud del coseno mide el coseno del ángulo entre dos vectores, que van de -1 a 1. Un ángulo más pequeño (más cercano a 1) implica una mayor similitud.
El modelo de la bolsa de palabras es una forma de representar datos de texto al modelar texto con algoritmos de aprendizaje automático.
Extracción de características/Los modelos de codificación se utilizan para convertir texto sin formato en representaciones numéricas que pueden ser procesadas por modelos de aprendizaje automático.
distancia euclidiana Mide la distancia en línea recta entre dos puntos en el espacio vectorial para calcular la similitud (o disimilitud) de los datos.
Doc2Vec (una extensión de Word2Vec), diseñado para representar la similitud (o la falta de ella) en documentos en lugar de palabras.

¿Qué es el modelo espacial vectorial?

El modelo de espacio vectorial (VSM) es un modelo algebraico que representa documentos o elementos de texto como «vectores». Esta representación permite a los sistemas crear una distancia entre cada vector.

La distancia calcula la similitud entre términos o elementos.

Los modelos vectoriales, comúnmente utilizados en la recuperación de información, clasificación de documentos y extracción de palabras clave, crean estructura. Este espacio numérico estructurado y de alta dimensión permite el cálculo de relevancia mediante medidas de similitud como la similitud del coseno.

A los términos se les asignan valores. Si un término aparece en el documento, su valor no es cero. Vale la pena señalar que los términos no son sólo palabras clave individuales. Pueden ser frases, oraciones y documentos completos.

Una vez que se asignan valores a las consultas, frases y oraciones, se puede calificar el documento. Tiene un lugar físico en el espacio vectorial elegido por el modelo.

En este caso, palabras, representadas en un gráfico para indicar las relaciones entre ellas (Crédito de la imagen: Harry Clarkson-Bennett)

Según su puntuación, los documentos se pueden comparar entre sí según la consulta ingresada. Genera puntuaciones de similitud a escala. Esto se conoce como similitud semántica, donde un conjunto de documentos se califica y posiciona en el índice en función de su significado.

No sólo su similitud léxica.

LEER Estrategia de marketing que funciona: cómo las marcas de joyería están ganando en 2025

Sé que esto suena un poco complicado, pero piénselo así:

Las palabras de una página se pueden manipular. Palabras clave rellenas. Son demasiado simples. Pero si puedes calcular el significado (del documento), estás un paso más cerca de obtener un resultado de calidad.

¿Por qué funciona tan bien?

A las máquinas no sólo les gusta la estructura. Les encanta.

Las entradas y salidas de longitud fija (o con estilo) crean resultados predecibles y precisos. Cuanto más informativo y compacto sea un conjunto de datos, mejor calidad obtendrá en la clasificación, extracción y predicción.

El problema del texto es que no tiene mucha estructura. Al menos no a los ojos de una máquina. Es un desastre. Por eso tiene tanta ventaja sobre el modelo de recuperación booleano clásico.

En los modelos de recuperación booleana, los documentos se recuperan en función de si satisfacen las condiciones de una consulta que utiliza lógica booleana. Trata cada documento como un conjunto de palabras o términos y utiliza operadores Y, O y NO para devolver todos los resultados que se ajusten a los requisitos.

Su simplicidad tiene sus usos, pero no puede interpretar el significado.

Piense en ello más como una recuperación de datos que como una identificación e interpretación de información. Con demasiada frecuencia caemos en la trampa de la frecuencia de términos (TF) con búsquedas más matizadas. Fácil, pero perezoso en el mundo actual.

Mientras que el modelo de espacio vectorial interpreta la relevancia real para la consulta y no requiere términos de coincidencia exacta. Esa es la belleza de esto.

Es esta estructura la que crea un recuerdo mucho más preciso.

La revolución de los transformadores (no Michael Bay)

A diferencia de la serie de Michael Bay, la real La arquitectura transformadora reemplazó los métodos de incrustación estáticos más antiguos (como Word2Vec) con incrustaciones contextuales.

Mientras que los modelos estáticos asignan un vector a cada palabra, los transformadores generan representaciones dinámicas que cambian según las palabras circundantes en una oración.

Y sí, Google lleva tiempo haciendo esto. No es nuevo. No es GEO. Es simplemente la recuperación de información moderna la que «entiende» una página.

Quiero decir, obviamente no. Pero tú, como ser, con suerte, sensible y que respira, entiendes lo que quiero decir. Pero los transformadores, bueno, ellos fingir:

Entrada de peso de los transformadores por datos por importancia.
El modelo presta más atención a las palabras que exigen o proporcionan contexto adicional.

Déjame darte un ejemplo.

«Los dientes del murciélago brillaron cuando salió volando de la cueva».

Murciélago es un término ambiguo. La ambigüedad es mala en la era de la IA.

Pero la arquitectura transformadora vincula al murciélago con los «dientes», «voló» y «cueva», lo que indica que es mucho más probable que el murciélago sea un roedor chupa sangre* que algo que un caballero usaría para acariciar la pelota para marcar un límite en el mejor deporte del mundo.

*No tengo idea si un murciélago es un roedor, pero parece una rata con alas.

BERT contraataca

BERT. Representaciones de codificadores bidireccionales de transformadores. Se encoge de hombros.

Así trabaja Google desde hace años. Aplicando este tipo de comprensión contextualmente consciente a las relaciones semánticas entre palabras y documentos. Es una gran parte de la razón por la que Google es tan bueno mapeando y entendiendo la intención y cómo cambia con el tiempo.

Las actualizaciones más recientes de BERT (DeBERTa) permiten que las palabras se representen mediante dos vectores: uno para el significado y otro para su posición en el documento. Esto se conoce como Atención Desenredada. Proporciona un contexto más preciso.

LEER ¿Cómo puedo mejorar la visibilidad de mis páginas de categoría?

Sí, a mí también me suena raro.

BERT procesa toda la secuencia de palabras simultáneamente. Esto significa que el contexto se aplica a todo el contenido de la página (no solo a los pocos términos circundantes).

Sinónimos bebé

RankBrain, que se lanzó en 2015, fue el primer sistema de aprendizaje profundo de Google. Bueno, eso lo sé de todos modos. Fue diseñado para ayudar al algoritmo de búsqueda a comprender cómo se relacionan las palabras con los conceptos.

Esta fue una especie de era de máxima búsqueda. Cualquiera podría iniciar un sitio web sobre cualquier tema. Sube y clasifica. Gana un montón de dinero. No necesita ningún tipo de rigor.

Días felices.

En retrospectiva, estos días no fueron buenos para el público en general. Obteniendo consejos sobre planificación funeraria y gestión de residuos comerciales desde el dormitorio de un joven de 23 años con manchas en Halifax.

A medida que surgieron consultas nuevas y en evolución, RankBrain y la posterior comparación neuronal fueron vitales.

Luego estaba MAMÁ. La capacidad de Google para «comprender» texto, imágenes y contenido visual en varios idiomas simultáneamente.

La longitud de los documentos era un problema obvio hace 10 años. Quizás menos. Los artículos más largos, para bien o para mal, siempre obtuvieron mejores resultados. Recuerdo haber escrito artículos de 10.000 palabras sobre tonterías sobre creadores de sitios web y haberlos pegado en una página de inicio.

Incluso entonces esa era una idea basura…

En un mundo donde las consultas y los documentos se asignan a números, se le podría perdonar que piense que los documentos más largos siempre aparecerán sobre los más cortos.

Recuerde hace 10 o 15 años, cuando todo el mundo estaba obsesionado con que cada artículo tuviera 2000 palabras.

«Esa es la duración óptima para SEO».

Si ve otro artículo de 2000 palabras sobre «¿Qué hora es X?», tiene mi permiso para dispararme.

No se puede ignorar el hecho de que esta es una experiencia mejor (Crédito de la imagen: Harry Clarkson-Bennett)

Los documentos más largos, como resultado de contener más términos, tendrán valores TF más altos. También contienen términos más distintos. Estos factores pueden conspirar para elevar las puntuaciones de documentos más largos.

De ahí que, durante un tiempo, fueran el cenit de nuestra producción de contenidos de mierda.

Los documentos más extensos se pueden agrupar en dos categorías:

Documentos detallados que esencialmente repiten el mismo contenido (hola, relleno de palabras clave, mi viejo amigo).
Documentos que cubren múltiples temas, en los que los términos de búsqueda probablemente coincidan con pequeños segmentos del documento, pero no con la totalidad.

Para combatir este problema obvio, se utiliza una forma de compensación de la longitud del documento, conocida como normalización de longitud de documento pivotada. Esto ajusta las puntuaciones para contrarrestar el sesgo natural que tienen los documentos más largos.

La normalización pivotada vuelve a escalar las ponderaciones de los términos utilizando un ajuste lineal alrededor de la longitud promedio del documento (Crédito de la imagen: Harry Clarkson-Bennett)

Se debe utilizar la distancia del coseno porque no queremos favorecer documentos más largos (o más cortos), sino centrarnos en la relevancia. Aprovechar esta normalización prioriza la relevancia sobre la frecuencia de los plazos.

Por eso la similitud del coseno es tan valiosa. Es resistente a la longitud del documento. Una respuesta corta y una larga pueden considerarse temáticamente idénticas si apuntan en la misma dirección en el espacio vectorial.

Gran pregunta.

Bueno, nadie espera que comprendas las complejidades de una base de datos vectorial. Realmente no necesitas saber que las bases de datos crean índices especializados para encontrar información cercana. vecinos sin comprobar cada registro.

LEER 12 Pasos esenciales para construir una estrategia de SEO ganadora

Esto es sólo para que empresas como Google logren el equilibrio adecuado entre rendimiento, costo y simplicidad operativa.

La excelente investigación más reciente de Kevin Indig muestra que el 44,2% de todas las citas en ChatGPT se originan en el primer 30% del texto. La probabilidad de citación cae significativamente después de este tramo inicial, creando un efecto de “rampa de esquí”.

Crédito de la imagen: Harry Clarkson-Bennett

Razón aún más para no crear documentos masivos sin pensar porque alguien te lo dijo.

En la “búsqueda de IA”, mucho de esto se reduce a tokens. Según el siempre excelente trabajo de Dan Petrovic, cada consulta tiene un presupuesto fijo de aproximadamente 2000 palabras en total, distribuidas entre las fuentes por rango de relevancia.

Al menos en Google. Y tu rango determina tu puntuación. Así que haz SEO.

La posición 1 te da el doble de protagonismo que la posición 5 (Crédito de la imagen: Harry Clarkson-Bennett)

El estudio de Metehan sobre lo que revelan 200.000 tokens sobre AEO/GEO realmente resalta lo importante que es esto. O lo será. No sólo por nuestros trabajos, sino también por los prejuicios y las implicaciones culturales.

A medida que el texto se tokeniza (se comprime y se convierte en una secuencia de ID enteros), esto tiene implicaciones de costo y precisión.

La prosa en inglés sencillo es el formato más eficiente con 5,9 caracteres por token. Llamémoslo 100% de eficiencia relativa. Una línea de base.
La prosa turca tiene apenas 3,6. Esto es un 61% más eficiente.
Tablas de rebajas 2.7. 46% de eficiencia.

Los idiomas no son creados iguales. En una era en la que los costos de los gastos de capital (CapEx) están aumentando y las empresas de inteligencia artificial han cerrado acuerdos que no estoy seguro de que puedan concretar, esto es importante.

Bueno, como Google ha estado haciendo esto durante algún tiempo, lo mismo debería funcionar en ambas interfaces.

Responde la pregunta invertida. Dios mío. Vaya al grano. No me importa nada más que lo que quiero. Dámelo inmediatamente (hablado como humano y máquina).
Así que adelanta tu información importante. No tengo capacidad de atención. Tampoco los modelos de transformadores.
Desambiguar. Trabajo de optimización de entidades. Conecte los puntos en línea. Reclama tu panel de conocimientos. Autores, cuentas sociales, datos estructurados, construcción de marcas y perfiles.
Excelente EEAT. Entregue información confiable de una manera que lo distinga de la competencia.
Cree enlaces internos ricos en palabras clave que ayuden a definir de qué se tratan la página y el contenido. Parte desambiguación. Parte simplemente buena UX.
Si quieres algo centrado en LLM, sé más eficiente con tus palabras.
- El uso de listas estructuradas puede reducir el consumo de tokens entre un 20% y un 40% porque eliminan la tontería. No porque sean más eficientes*.
- Utilice abreviaturas comúnmente conocidas para guardar también tokens.

*Curiosamente, son menos eficientes que la prosa tradicional.

Casi todo esto se trata de darle a la gente lo que quiere rápidamente y eliminar cualquier ambigüedad. En una Internet llena de basura, hacer esto realmente funciona.

Últimos bits

Existe cierta discusión sobre si el descuento para agentes puede ayudar a eliminar la tontería del HTML en su sitio. Para que los agentes pudieran eludir el desordenado HTML y vaya directo a lo bueno.

No sé hasta qué punto esto podría resolverse con un enfoque menos jodido del HTML semántico. De todos modos, uno para mirar.

Muy SEO. Mucha IA.

Más recursos:

Lea Liderazgo en SEO. Suscríbete ahora.

Imagen de portada: Anton Vierietin/Shutterstock

Etiquetas
Marketing
SEO

Artículo anterior

Google ofrece certificado AI gratuito para pequeñas empresas elegibles de EE. UU.

Artículo siguiente

Actualización del enlace del modo AI de Google, haga clic en Compartir datos y Fan-Outs de ChatGPT – SEO Pulse

--Advertisement--

DEJA UNA RESPUESTA Cancelar respuesta

Por favor ingrese su comentario!

Por favor ingrese su nombre aquí

¡Has introducido una dirección de correo electrónico incorrecta!

Por favor ingrese su dirección de correo electrónico aquí

Vectorización y transformadores (no la película)

TL;DR

Cosas que debes saber antes de comenzar