No soy muy bueno cocinando, de hecho, sólo lo hago como medio de sobrevivencia cuando mi esposa esta de viaje. La preparación de una sopa por parte de un Chef de verdad es un buen ejemplo para ilustrar este proceso.
- En la cocina: Cortar la zanahoria en cubitos.
- En los datos: "La sopa está rica" se convierte en ["La", "sopa", "está", "rica"].
2. Limpieza de Ruido (Quitar las cáscaras y la tierra): Paso 2: Filtrado.
Hay partes del texto que no aportan sabor (significado) y solo ensucian el modelo. Eliminamos caracteres especiales, etiquetas HTML, emojis irrelevantes o mayúsculas estorbosas.
- En la cocina: Pelar las papas y lavar los vegetales para quitar la tierra.
- En los datos: "¡Sopa al 100%!!!" se limpia a "sopa al 100".
3. Stop Words (Descartar el agua de lavado): Paso 3: Eliminación de conectores.
Las stop words son palabras altísimas en frecuencia pero bajísimas en significado, como "el", "la", "de", "un". Si el modelo ve demasiados conectores, se distrae del ingrediente principal.
- En la cocina: Escurrir el agua donde lavaste las verduras; no la quieres en el caldo final.
- En los datos: ["la", "sopa", "de", "tomate"] se reduce a los elementos clave: ["sopa", "tomate"].
4. Lematización o Stemming (Reducir al sabor base): Paso 4: Normalización.
Para la sopa, no importa si la zanahoria era grande, pequeña, rallada o en rodajas: al final, aporta el sabor de la zanahoria. En texto, llevamos las palabras a su raíz gramatical para que el modelo entienda que son lo mismo.
- En la cocina: Concentrar los ingredientes en su esencia pura.
- En los datos: Las palabras "cocinando", "cocinó" y "cocina" se unifican en su raíz: "cocinar".
El plato fuerte: Una vez que tienes tus ingredientes picados, limpios, sin basura y normalizados en la olla, es cuando el algoritmo hace su magia. Toma esa "esencia" y la convierte en un embedding (un vector de números), que no es más que la receta matemática que define el perfil de sabor exacto de tu texto.
Es una forma sencilla de cómo entender este complejo proceso que se debe llevar a cabo antes de convertir un dato cualquiera, en un vector.
Recuerda que en Oracle AI Database 26ai, los datos tipo vector son nativos. El tipo de dato vectorial, se especifica con la palabra VECTOR y los parámetros (dimensión, formato).
El tamaño máximo de una dimensión es de 65.536 y soporta los tipos de formato:
- INT8,
- BINARY,
- FLOAT32 (valor de facto) y
- FLOAT64.
La precisión de la dimensión puede ser omitida utilizando un asterisco (*,FLOAT32), para definir un valor variable o no especificado para la cantidad de dimensiones.

No hay comentarios:
Publicar un comentario
Te agradezco tus comentarios. Te esperamos de vuelta.