RECUPERACION Y ORGANIZACION DE LA INFORMACION

MODELO DE RECUPERACION BOOLEANO

1.- Modelo de Recuperacion Booleano

El modelo de recuperacion booleano es uno de los métodos más utilizados para la recuperación de información. Este modelo se basa en la agrupación de documentos, los cuales están compuestos por conjuntos de términos y en la concepción de las preguntas como expresiones booleanas, de ahí deriva el nombre de modelo de recuperacion booleano. La principal característica es la consideración de la relevancia como un carácter puramente binario. Dentro del modelo, se presenta el lenguaje de consulta, y el mecanismo de indización utilizando los denominados índices inversos o archivos fantasma.

2.-Características Principales

Es un modelo de recuperación simple, basado en la teoría de conjuntos y el álgebra booleana. Dada su inherente simplicidad y su pulcro formalismo ha recibido gran atención y sido  adoptado por muchos de los primeros sistemas bibliográficos comerciales. Su estrategia de recuperación está basada en un criterio de decisión binario (pertinente o no pertinente) sin ninguna noción de escala de medida, sin noción de un emparejamiento parcial en las condiciones de la pregunta.

Para el modelo de recuperacion booleano, las variables de peso de los términos índice son todas binarias. A pesar de estos inconvenientes, el modelo booleano es todavía el modelo dominante en los sistemas comerciales de bases de datos de documentos y proporciona un buen punto de partida.

En este modelo el metodo de representación, como ya hemos mencionado, es definir a los documentos como un conjunto de términos de indexación o palabras claves.

Diccionario: Conjunto de todos los términos T = {t1, t2, t3, ...}.

Documento: Conjunto de términos del diccionario donde tiene valor Di = {t1, t2, t3, ...} donde cada uno de los ti = Verdad si es una palabra clave del documento.

Las preguntas son expresiones booleanas cuyos componentes son términos de nuestro diccionario:
Operadores : O (∪), Y (∩), No (-)

El algoritmo utilizado en el método booleano nos permite calcular el valor de la función de semejanza. Como entrada tenemos dos listas ordenadas ascendentemente y como salida una lista ordenada con la mezcla de las dos listas de entrada. El método de ordenación puede ser el número de identificación de los documentos que agrupan los términos a recuperar. Para todo esto necesitaremos, una función que nos devuelva los identificadores de los documentos que contienen el término de la búsqueda, lo cual es sencillo si miramos el archivo invertido y luego se mezclan las listas.

Los beneficios de utilizar este método es que es un modelo de recuperación sencillo. Mientras que la problemática es que básicamente tenemos que considerar la relevancia como un aspecto puramente binario, y las extensiones que se pueden especificar para el manejo de pesos en el modelo booleano.

 

El menú de la izquierda permite navegar por los contenidos sobre modelos de recuperacion.

Modelos de Recuperacion y organizacion de la informacion: Modelos Booleano, Probabilistico, Vectorial