RECUPERACION Y ORGANIZACION DE LA INFORMACION

MODELO DE RECUPERACION PROBABILISTICO

 

1.- Modelo de Recuperacion Probabilistico .

 

Este tema presenta un modelo de recuperación clásico como es el modelo de recuperacion probabilistico, donde la base principal de su funcionamiento es el cálculo de la probabilidad de un documento de ser relevante a una pregunta dada. Los modelos anteriores están basados en la equiparación en la forma más «dura». En el booleano es o no coincidente, y en el vectorial el umbral de similitud es un conjunto, y si un documento no está no es similar y, por lo tanto, no recuperable.

2.- Caracteristicas Principales.

Dentro de la recuperación probabilística, utilizaremos el modelo de recuperacion probabilistico de independencia de términos binarios donde:

  1. La probabilidad de los términos es independiente (un término es independiente de los otros).
  2. Los pesos asignados a los términos son binarios

La equiparación probabilística se basa en que, dados un documento y una pregunta, es posible calcular la probabilidad de que ese documento sea relevante para esa pregunta.

Si un documento es seleccionado aleatoriamente de la base de datos hay cierta probabilidad de que sea relevante a la pregunta. Si una base de datos contiene N documentos, n de ellos son relevantes, entonces la probabilidad se estima en:

P(rel) = n/ N

En concordancia con la teoría de la probabilidad, la de que un documento no sea relevante a una pregunta dada viene expresada por la siguiente formula:

P(↓rel) = 1 - P (rel) = N - n/ N

Obviamente, los documentos no son elegidos aleatoriamente, sino que se eligen sobre la base de la equiparación con la pregunta —basado en el análisis de los términos contenidos en ambos—. Así, la idea de relevancia está relacionada con los términos de la pregunta que aparecen en el documento.

Una pregunta dada divide la colección de documentos en dos conjuntos: los que responden a la pregunta y los que no.

3.-Ventajas y desventajas de los modelos probabilisticos.

Numerosos experimentos demuestran que los procedimientos del modelo de recuperacion probabilistico obtienen buenos resultados. De cualquier forma, los resultados no son mucho mejores que los obtenidos en el modelo booleano y en el vectorial. Posiblemente en el nuevo contexto de la recuperación a texto completo de bases de datos heterogéneas en Internet, compliquen lo suficiente la recuperación como para que las técnicas de recuperación probabilística se utilicen más.

Sin embargo, todos los documentos seleccionados no son realmente relevantes. Entonces, debemos considerar la posibilidad de que un documento sea relevante o no, dado que haya sido ya seleccionado. Supongamos que un conjunto de documentos S de la base de datos ha sido seleccionado en respuesta a una pregunta. La cuestión es hasta qué punto éste es el conjunto que debería haber sido seleccionado en respuesta a la pregunta. Un criterio debe ser seleccionar el conjunto si es más probable que un documento del conjunto sea más relevante que otro que no lo es.

Evidentemente, los modelos de recuperación probabilísticos envuelven muchos cálculos y premisas.

 

El menú de la izquierda permite navegar por los contenidos sobre modelos de recuperacion.

Modelos de Recuperacion y organizacion de la informacion: Modelos Booleano, Probabilistico, Vectorial