martes, 26 de mayo de 2026

Qué sucede antes de que un dato se convierta en un embedding.?

 


No soy muy bueno cocinando, de hecho, sólo lo hago como medio de sobrevivencia cuando mi esposa esta de viaje. La preparación de una sopa por parte de un Chef de verdad es un buen ejemplo para ilustrar este proceso.

Para que los modelos entiendan el texto y lo conviertan en vectores (esos códigos numéricos o embeddings), no podemos simplemente lanzar el texto en bruto. Si hechas las verduras enteras con todo y tierra a la olla, la sopa quedará horrible. Aquí tienes cómo se limpia y simplifica el texto usando el ejemplo de la preparación de la sopa en la cocina. De la Cocina al Código: Preparando los Datos 1. Tokenización (Cortar los ingredientes): Paso 1: Fragmentación. No te comes una tableta de chocolate entera ni una cebolla de un solo bocado. En el texto, tokenizar es picar las oraciones en pedacitos manejables (palabras o sílabas).
  • En la cocina: Cortar la zanahoria en cubitos.
  • En los datos: "La sopa está rica" se convierte en ["La", "sopa", "está", "rica"].
2. Limpieza de Ruido (Quitar las cáscaras y la tierra): Paso 2: Filtrado. Hay partes del texto que no aportan sabor (significado) y solo ensucian el modelo. Eliminamos caracteres especiales, etiquetas HTML, emojis irrelevantes o mayúsculas estorbosas.
  • En la cocina: Pelar las papas y lavar los vegetales para quitar la tierra.
  • En los datos: "¡Sopa al 100%!!!" se limpia a "sopa al 100".
3. Stop Words (Descartar el agua de lavado): Paso 3: Eliminación de conectores. Las stop words son palabras altísimas en frecuencia pero bajísimas en significado, como "el", "la", "de", "un". Si el modelo ve demasiados conectores, se distrae del ingrediente principal.
  • En la cocina: Escurrir el agua donde lavaste las verduras; no la quieres en el caldo final.
  • En los datos: ["la", "sopa", "de", "tomate"] se reduce a los elementos clave: ["sopa", "tomate"].
4. Lematización o Stemming (Reducir al sabor base): Paso 4: Normalización. Para la sopa, no importa si la zanahoria era grande, pequeña, rallada o en rodajas: al final, aporta el sabor de la zanahoria. En texto, llevamos las palabras a su raíz gramatical para que el modelo entienda que son lo mismo.
  • En la cocina: Concentrar los ingredientes en su esencia pura.
  • En los datos: Las palabras "cocinando", "cocinó" y "cocina" se unifican en su raíz: "cocinar".
El plato fuerte: Una vez que tienes tus ingredientes picados, limpios, sin basura y normalizados en la olla, es cuando el algoritmo hace su magia. Toma esa "esencia" y la convierte en un embedding (un vector de números), que no es más que la receta matemática que define el perfil de sabor exacto de tu texto.
Es una forma sencilla de cómo entender este complejo proceso que se debe llevar a cabo antes de convertir un dato cualquiera, en un vector.

Recuerda que en Oracle AI Database 26ai, los datos tipo vector son nativos. El tipo de dato vectorial, se especifica con la palabra VECTOR y los parámetros (dimensión, formato).

El tamaño máximo de una dimensión es de 65.536 y soporta los tipos de formato:
  • INT8,
  • BINARY,
  • FLOAT32 (valor de facto) y
  • FLOAT64.
La precisión de la dimensión puede ser omitida utilizando un asterisco (*,FLOAT32), para definir un valor variable o no especificado para la cantidad de dimensiones.

No hay comentarios:

Publicar un comentario

Te agradezco tus comentarios. Te esperamos de vuelta.

Todos los Sábados a las 8:00PM