Recuperación de información, parte 4 (suspiro): conexión a tierra y RAG

Fecha:

--Advertisement--spot_img

Cuando hablamos de conexión a tierra, nos referimos a verificar las alucinaciones de los robots destructores de planetas y los técnicos.

Si desea una línea de apertura que no sea estúpida, cuando los modelos aceptan que no saben algo, fundamentan los resultados en un intento de verificar ellos mismos los hechos.

¿Feliz ahora?

TL;DR

  1. Los LLM no buscan ni almacenan fuentes ni URL individuales; generan respuestas a partir de contenido previamente proporcionado.
  2. RAG basa a los LLM en conocimientos específicos respaldados por datos fácticos, autorizados y actuales. Reduce las alucinaciones.
  3. Volver a entrenar un modelo básico o ajustarlo es costoso desde el punto de vista computacional y requiere muchos recursos. Los resultados de la puesta a tierra son mucho más baratos.
  4. Con RAG, las empresas pueden utilizar fuentes de datos internas autorizadas y obtener aumentos similares en el rendimiento del modelo sin necesidad de volver a capacitarse. Resuelve la falta de conocimientos actualizados que tienen (o más bien no tienen) los LLM.

¿Qué es el RAG?

RAG (Generación Aumentada de Recuperación) es una forma de conexión a tierra y un paso fundamental en la precisión del motor de respuesta. Los LLM están capacitados en vastos corpus de datos y cada conjunto de datos tiene limitaciones. Especialmente cuando se trata de cosas como consultas de noticias o cambios de intención.

Cuando se hace una pregunta a un modelo, no tiene la puntuación de confianza adecuada para responder con precisión; se comunica con fuentes confiables específicas para fundamentar la respuesta. En lugar de depender únicamente de los resultados de sus datos de capacitación.

Al incorporar esta información externa relevante, el sistema de recuperación identifica páginas/pasajes relevantes y similares e incluye los fragmentos como parte de la respuesta.

Esto proporciona una visión realmente valiosa de por qué es tan importante estar en los datos de entrenamiento. Es más probable que lo seleccionen como fuente confiable de RAG si aparece en los datos de capacitación para temas relevantes.

Es una de las razones por las que la desambiguación y la precisión son más importantes que nunca en la versión actual de Internet.

¿Por qué lo necesitamos?

Porque los LLM son notoriamente alucinatorios. Han sido capacitados para brindarle una respuesta. Incluso si la respuesta es incorrecta.

Los resultados de conexión a tierra proporcionan cierto alivio del flujo de información tonta.

Todos los modelos tienen un límite en sus datos de entrenamiento. Pueden tener un año o más. Por lo tanto, cualquier cosa que haya sucedido en el último año no tendría respuesta sin la fundamentación de hechos e información en tiempo real.

Una vez que un modelo ha ingerido una cantidad considerable de datos de entrenamiento, es mucho más económico confiar en una canalización RAG para responder nueva información en lugar de volver a entrenar el modelo.

Dawn Anderson tiene una gran presentación llamada «No se puede generar lo que no se puede recuperar». Vale la pena leerlo, incluso si no puedes estar en la sala.

¿Se diferencian la conexión a tierra y el RAG?

Sí. RAG es una forma de conexión a tierra.

Conexión a tierra es un término amplio que se aplica a cualquier tipo de anclaje de respuestas de IA en entornos confiables., datos fácticos. RAG logra la conexión a tierra recuperando documentos o pasajes relevantes de fuentes externas.

En casi todos los casos con los que usted o yo trabajaremos, esa fuente es una búsqueda web en vivo.

Piénselo así;

  • Toma de tierra es el resultado final – “PAGDeja de inventar cosas”.
  • TRAPO es el mecanismo. Cuando no tiene la confianza adecuada para responder una consulta, el monólogo interno de ChatGPT dice: «DNo se limite a mentir al respecto, verifique la información.
  • Entonces la conexión a tierra se puede lograr a través de puesta a punto, ingeniería rápida, o TRAPO.
  • RAG respalda sus afirmaciones cuando no se alcanza el umbral o encuentra la fuente de una historia que no aparece en sus datos de entrenamiento.
LEER  Cómo el Date Night Pass de Applebee se basa en el éxito impulsado por el marketing de la cadena

Imagina un hecho que escuchas en el pub. Alguien te cuenta que la cicatriz que tiene en el pecho fue por el ataque de un tiburón. Una gran historia. Un poco de verificación le diría que se atragantaron con un maní en dicho pub y tuvieron que someterse a una operación de nueve horas para que les extirparan una parte del pulmón.

Historia real, y en la que creí hasta que estuve en la universidad. Era mi papá.

Existe mucha información contradictoria sobre qué búsqueda web utilizan estos modelos. Sin embargo, tenemos información muy sólida de que ChatGPT (todavía) está extrayendo los resultados de búsqueda de Google para formar sus respuestas cuando utiliza la búsqueda web.

¿Por qué nadie puede resolver el problema alucinatorio de la IA?

Muchas alucinaciones tienen sentido cuando las enmarcas como un modelo que llena los vacíos. El falla sin problemas.

Es una falsedad plausible.

Es como Elizabeth Holmes de la infamia de Theranos. Sabes que está mal, pero no quieres creerlo. El Se trata de un viejo e inmoral magnate de los medios de comunicación o de una empresa de inversión que abarató la diligencia debida.

«Incluso cuando los modelos de lenguaje se vuelven más capaces, un desafío sigue siendo difícil de resolver por completo: las alucinaciones. Con esto nos referimos a casos en los que un modelo genera con confianza una respuesta que no es cierta».

Esa es una cita directa de OpenAI. La boca del caballo alucinatorio.

Los modelos alucinan por varias razones. Como se argumenta en el artículo de investigación más reciente de OpenAI, alucinan porque los procesos de entrenamiento y evaluación recompensan una respuesta. Correcto o no.

Las tasas de error son «altas». Incluso en los modelos más avanzados. (Crédito de la imagen: Harry Clarkson-Bennett)

Si lo piensas en el sentido del condicionamiento pavloviano, el modelo recibe un regalo. cuando responde. Pero eso realmente no responde por qué Los modelos se equivocan. Sólo que los modelos han sido entrenados para responder a tus divagaciones con confianza y sin recursos.

Esto se debe en gran medida a cómo se ha entrenado el modelo.

Ingieren suficientes datos estructurados o semiestructurados (sin etiquetas correctas o incorrectas) y se vuelven increíblemente competentes a la hora de predecir la siguiente palabra. Al sonar como un ser sintiente.

Nadie con quien saldrías en una fiesta. Pero uno que suena sensible.

Si un hecho se menciona docenas o cientos de veces en los datos de entrenamiento, es mucho menos probable que los modelos se equivoquen. Los modelos valoran la repetición. Pero los hechos a los que rara vez se hace referencia actúan como indicador de cuántos resultados “novedosos” podría encontrar en un muestreo posterior.

Los hechos a los que se hace referencia con esta poca frecuencia se agrupan bajo el término tasa única. En una comparación nunca antes realizada, una tasa alta de casos únicos es una receta para el desastre para los datos de capacitación de LLM, pero brillante para las despedidas de soltera de Essex.

Según este artículo sobre por qué los modelos del lenguaje alucinan:

«Incluso si los datos de entrenamiento estuvieran libres de errores, los objetivos optimizados durante el entrenamiento del modelo de lenguaje darían lugar a que se generaran errores».

Incluso cuando los datos de entrenamiento estén 100% libres de errores, el modelo generará errores. Están construidos por personas. La gente tiene defectos y nos encanta la confianza.

Varias técnicas posteriores al entrenamiento (como el aprendizaje reforzado a partir de la retroalimentación humana o, en este caso, formas de conexión a tierra) reducen las alucinaciones.

¿Cómo funciona RAG?

Técnicamentese podría decir que el proceso RAG se inicia mucho antes de que se reciba una consulta. Pero estoy siendo un poco tosco ahí. Y no soy un experto.

LEER  Nuevos datos muestran que el límite de rastreo de 2 MB del robot de Google es suficiente

Los LLM estándar obtienen información de sus bases de datos. Estos datos se incorporan para entrenar el modelo en forma de memoria paramétrica (más sobre esto más adelante). Entonces, quienquiera que esté entrenando el modelo está tomando decisiones explícitas sobre el tipo de contenido que probablemente requerirá una forma de conexión a tierra.

RAG agrega un componente de recuperación de información a la capa de IA. El sistema:

➡️ Recupera datos

➡️ Aumenta el mensaje

➡️ Genera una respuesta mejorada.

Una explicación más detallada (si la desea) sería algo como:

  1. El usuario ingresa una consulta y se convierte en un vector.
  2. El LLM utiliza su memoria paramétrica para intentar predecir la siguiente secuencia probable de tokens.
  3. La distancia vectorial entre la consulta y un conjunto de documentos se calcula mediante similitud de coseno o distancia euclidiana.
  4. Esto determina si la memoria almacenada (o paramétrica) del modelo es capaz de satisfacer la consulta del usuario sin llamar a una base de datos externa.
  5. Si no se alcanza un cierto umbral de confianza, se llama a RAG (o una forma de conexión a tierra).
  6. Se envía una consulta de recuperación a la base de datos externa.
  7. La arquitectura RAG aumenta la respuesta existente. Aclara la exactitud de los hechos o agrega información a la respuesta actual.
  8. Se genera un resultado final mejorado.

Si un modelo utiliza una base de datos externa como Google o Bing (que todos hacen), no es necesario crear una para usarla en RAG.

Esto hace que las cosas sean mucho más baratas.

El problema que tienen los jefes de tecnología es que todos se odian entre sí. Entonces, cuando Google eliminó el parámetro num=100 en septiembre de 2025, las citas de ChatGPT cayeron por un precipicio. Ya no podían utilizar a sus socios externos para extraer esta información.

Nota de Lily Ray sobre las citas que aparecen en Reddit y Wikipedia
Crédito de la imagen: Harry Clarkson-Bennett

Vale la pena señalar que las arquitecturas RAG más modernas aplican un modelo híbrido de recuperación, donde la búsqueda semántica se ejecuta junto con coincidencias de tipos de palabras clave más básicas. Al igual que las actualizaciones de BERT (DaBERTa) y RankBrain, esto significa que la respuesta tiene en cuenta todo el documento y el significado contextual al responder.

La hibridación crea un modelo muy superior. En este estudio de caso de agricultura, un modelo base alcanzó una precisión del 75 %, el ajuste fino la elevó al 81 % y el ajuste fino + RAG saltó al 86 %.

Paramétrico vs. Memoria no paramétrica

La memoria paramétrica de un modelo son esencialmente los patrones que ha aprendido de los datos de entrenamiento que ha ingerido con avidez.

Durante la fase previa al entrenamiento, los modelos ingieren una enorme cantidad de datos: palabras, números, contenido multimodal, etc. Una vez que estos datos se han convertido en un modelo de espacio vectorial, el LLM puede identificar patrones en su red neuronal.

Cuando le haces una pregunta, calcula la probabilidad del siguiente token posible y calcula las posibles secuencias por orden de probabilidad. El ajuste de temperatura es lo que proporciona un nivel de aleatoriedad.

La memoria no paramétrica almacena (o accede) a información en una base de datos externa. Cualquier índice de búsqueda es obvio. Wikipedia, Reddit, etc., también. Cualquier tipo de base de datos idealmente bien estructurada. Esto permite que el modelo recupere información específica cuando sea necesario.

LEER  La página HTTP oculta puede causar problemas con el nombre del sitio en Google

Las metodologías RAG son capaces de aprovechar estas dos disciplinas competitivas y altamente complementarias.

  1. Los modelos obtienen una “comprensión” del lenguaje y los matices a través de la memoria paramétrica.
  2. Luego, las respuestas se enriquecen y/o fundamentan para verificar y validar el resultado a través de una memoria no paramétrica.

Las temperaturas más altas aumentan la aleatoriedad. O “creatividad”. Las temperaturas más bajas son todo lo contrario.

Irónicamente, estos modelos son increíblemente poco creativos. Es una mala forma de enmarcarlo, pero mapear palabras y documentos en tokens es lo más estadístico posible.

¿Por qué es importante para el SEO?

Si le interesa la búsqueda con IA y es importante para su negocio, debe obtener una buena clasificación en los motores de búsqueda. Quiere forzar su entrada en consideración cuando se apliquen las búsquedas RAG.

Debes saber cómo funciona RAG y cómo influir en él.

Si su marca aparece mal en los datos de entrenamiento del modelo, no puede cambiar eso de inmediato. Bueno, para futuras iteraciones, puedes hacerlo. Pero la base de conocimientos del modelo no se actualiza sobre la marcha.

Sabemos cuán grandes son los trozos de tierra de Google. Cuanto mejor clasifique, mayores serán sus posibilidades (Crédito de la imagen: Harry Clarkson-Bennett)

Por lo tanto, usted confía en aparecer de manera destacada en estas bases de datos externas para poder ser parte de la respuesta. Cuanto mejor clasifique, más probabilidades tendrá de aparecer en búsquedas específicas de RAG.

Recomiendo encarecidamente ver la presentación De la pobreza a la riqueza de Mark Williams-Cook. Es excelente. Es muy razonable y brinda orientación clara sobre cómo encontrar consultas que requieran RAG y cómo puede influir en ellas.

Básicamente, nuevamente, necesitas hacer un buen SEO

  1. Asegúrese de obtener la clasificación más alta posible para el término relevante en los motores de búsqueda.
  2. Asegúrese de comprender cómo maximizar sus posibilidades de aparecer en la respuesta fundamentada de un LLM.
  3. Con el tiempo, realice un mejor marketing para acceder a los datos de capacitación.

En igualdad de condiciones, funcionarán las consultas respondidas de forma concisa que coincidan claramente con entidades relevantes que agreguen algo al corpus. Si usted en realidad Si desea seguir las mejores prácticas de fragmentación para la recuperación de IA, entre 200 y 500 caracteres parece ser el punto ideal.

Los fragmentos más pequeños permiten una recuperación más precisa y concisa. Los fragmentos más grandes tienen más contexto, pero pueden crear un entorno con más «pérdidas», donde el modelo pierde la cabeza en el medio.

Consejos principales (lo mismo de siempre)

Me encuentro repitiendo esto al final de cada artículo sobre datos de entrenamiento, pero creo que, en términos generales, todo sigue igual.

  • Responda la consulta relevante en la parte superior de la página (información cargada al principio).
  • Haga coincidir sus entidades de forma clara y concisa.
  • Proporcionar cierto nivel de ganancia de información.
  • Evite la ambigüedad, especialmente en la mitad del documento.
  • Tenga un argumento y una estructura de página claramente definidos, con encabezados bien estructurados.
  • Utilice listas y tablas. No porque consuman menos recursos en cuanto a tokens, sino porque tienden a contener menos información.
  • Dios mío, sé interesante. Utilice datos, imágenes y vídeos únicos. Cualquier cosa que satisfaga al usuario.
  • Coincide con su intención.

Como siempre, muy SEO. Mucha IA.

Este artículo es parte de una breve serie:

Más recursos:


Lea Liderazgo en SEO. Suscríbete ahora.


Imagen de portada: Estación Digineer/Shutterstock

--Advertisement--spot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

spot_img

Popular

spot_img

Más como esto
Relacionada

El nuevo complemento Claude «Voiceprint» clona su estilo de escritura

Está disponible un nuevo complemento de Claude Code llamado...

Lo que ve la IA cuando visita su sitio web (y...

Esta publicación fue patrocinada por Scrunch. Las opiniones expresadas...

Las descripciones generales de IA de Google aumentan en 9 industrias

Una nueva investigación de BrightEdge muestra que, si bien...

El ascenso de la cola infinita

Durante las últimas dos décadas, el SEO se ha...