RECUPERACION Y ORGANIZACION DE LA INFORMACION

MODELO DE RECUPERACION VECTORIAL

1.- Modelo de Recuperacion Vectorial.

El modelo de recuperación vectorial o de espacio vectorial propone un marco en el que es posible el emparejamiento parcial a diferencia del modelo de recuperación booleano, asignando pesos no binarios a los términos índice de las preguntas y de los documentos. Estos pesos de los términos se usan para computar el grado de similitud entre cada documento guardado en el sistema y la pregunta del usuario.

2.- Características Generales.

Ordenando los documentos recuperados en orden decreciente a este grado de similitud, el modelo de recuperacion vectorial toma en consideración documentos que sólo se emparejan parcialmente con la pregunta, así el conjunto de la respuesta con los documentos alineados es mucho más preciso (en el sentido que empareja mejor la necesidad de información del usuario) que el conjunto recuperado por el modelo booleano. Los rendimientos de alineación del conjunto de la respuesta son difíciles de mejorar.

La mayoría de los motores de búsqueda lo implementan como estructura de datos y que el alineamiento suele realizarse en función del parecido (o similitud) de la pregunta con los documentos almacenados.

3.- Funcionamiento.

La idea básica de este modelo de recuperacion vectorial reside en la construcción de una matriz (podría llamarse tabla) de términos y documentos, donde las filas fueran estos últimos y las columnas correspondieran a los términos incluidos en ellos. Así, las filas de esta matriz (que en términos algebraicos se denominan vectores) serían equivalentes a los documentos que se expresarían en función de las apariciones (frecuencia) de cada término. De esta manera, un documento podría expresarse de la manera d1=(1, 2, 0, 0, 0, ... ... ..., 1, 3) siendo cada uno de estos valores el número de veces que aparece cada término en el documento. La longitud del vector de documentos sería igual al total de términos de la matriz (el número de columnas).

De esta manera, un conjunto de m documentos se almacenaría en una matriz de m filas por n columnas, siendo n el total de términos almacenamos en ese conjunto de documentos. La segunda idea asociada a este modelo es calcular la similitud entre la pregunta (que se convertiría en el vector pregunta, expresado en función de la aparición de los n términos en la expresión de búsqueda) y los m vectores de documentos almacenados. Los más similares serían aquellos que deberían colocarse en los primeros lugares de la respuesta.

3.1.- Cálculo de la similitud.

Se dispone de varias fórmulas que nos permiten realizar este cálculo, la más conocida es la Función del Coseno, que equivale a calcular el producto escalar de dos vectores de documentos (A y B) y dividirlo por la raíz cuadrada del sumatorio de los componentes del vector A multiplicada por la raíz cuadrada del sumatorio de los componentes del vector B.

De esta manera se calcula este valor de similitud. Como es obvio, si no hay coincidencia alguna entre los componentes, la similitud de los vectores será cero ya que el producto escalar será cero (circunstancia muy frecuente en la realidad ya que los vectores llegan a tener miles de componentes y se da el caso de la no coincidencia con mayor frecuencia de lo que cabría pensar).

También es lógico imaginar que la similitud máxima sólo se da cuando todos los componentes de los vectores son iguales, en este caso la función del coseno obtiene su máximo valor, la unidad. Lo normal es que los términos de las columnas de la matriz hayan sido filtrados (supresión de palabras vacías) y que en lugar de corresponder a palabras, equivalgan a su raíz 'stemmed' (agrupamiento de términos en función de su base léxica común, por ejemplo: economista, económico, economía, económicamente, etc.). Generalmente las tildes y las mayúsculas/ minúsculas son ignorados. Esto se hace para que las dimensiones de la matriz, de por sí considerablemente grandes no alcancen valores imposibles de gestionar. No obstante podemos encontrar excepciones a la regla general, tal como parece ser el caso de Yahoo!, que no ignora las palabras vacías.

Para finalizar, la del coseno no es la única función de similitud. Existen otras, las cuales no son difíciles de calcular sino más bien de interpretar y que por tanto son menos aplicadas en Recuperación de Información.

4.- Modelo de Recuperación Vectorial Generalizado .

La idea del modelo generalizado es tomar el grupo de vectores mi que son ortogonales y adoptarlo como el conjunto de vectores bases para los subespacios de interés. Ortogonalidad no significa que las palabras índices son independientes. Por el contrario, las palabras índices son ahora correlacionadas por los vectores mi .

4.1- Funcionamiento.

La independencia de las palabras clave en un modelo vectorial implica que el conjunto de vectores  es linealmente independiente. Frecuentemente esta linealidad es interpretada como que los vectores son ortogonales. En el modelo vector generalizado, los pesos (weights) son considerados independientes pero no ortogonales. Sea el conjunto de palabras índices { k1, k2, ... kt } y los pesos wi,j asociados a las palabras índices y documentos [ki, dj]. Si los pesos son binarios, toda posible concurrencia de palabras índices pueden ser representada por el conjunto de 2t “minterms” dados por m1 = (0,0,...0), m2 = (1,0,...0) y mt = (1,1,...1). Considere la función gi(mj) que retorna el peso {0,1} de la palabra índice ki en el minterm mj. El minterm m1 que contiene sólo 0 significa que el documento no tiene ninguna de las palabras índices y el minterm mt significa que el documento contiene todas las palabras índices.

 

El menú de la izquierda permite navegar por los contenidos sobre modelos de recuperacion.

Modelos de Recuperacion y organizacion de la informacion: Modelos Booleano, Probabilistico, Vectorial