IBM Omnifind Yahoo! Edition es un software gratuito basado en el motor Lucene que nos permite de forma fácil indexar y realizar búsquedas en hasta un total de 500000 (quinientos mil) documentos.
El funcionamiento no puede ser más fácil. La instalación es simple a más no poder. Una vez instalado únicamente hemos de indicarle, desde el panel de administación, que dirección web o carpeta de documentos deseamos que indexe. No hay cantidad de opciones, prácticamente el sistema se limita a añadir y eliminar lugares (carpetas o webs) que deseamos indexar, borrar el Ãndice e información del estado del Ãndice. Además nos da estadÃsticas de las consultas e incluso podemos personalizar la página de busqueda sin meternos en html.
Las consultas se hacen desde un navegador y existe posibilidad de comunicarse con el buscador mediante una API. La opciones para actuar sobre el ranking son pocas: fecha de modificación del documento, la profundidad del documento en el path o la url y web links o enlaces al documento.
Si desactivamos las tres opciones es sistema únicamente tendrá en cuenta las keywords dentro del documento. Asà si disponemos de varias versiones de la misma página con diferentes tipos de optimización podremos cual considera el motor que es la más válida. Tendremos un sistema de comprobación de la optimización ‘in-page’ sin tener que esperar a que nos indexe un buscador y ver que resultados nos da.
Otra forma de darle uso es dentro de la empresa como buscador corporativo. En mi caso lo he probado de la forma indicada arriba y como buscador en el archivo de la empresa donde trabajo, sobre más de 75000 documentos. El sistema es bastante rápido en escanear, tardó unas 4 horas en escanear las carpetas con multitud de documentos de muchos tipos, word, html, msg (mensajes de correo de outlook), pdf, excel, power point, txt… accediendo desde la red ya que los datos estaban en uno de los servidores y Omnifind en un ordenador viejo utilizado para la ocasión.
Una de mis dudas era que si le conectaba las unidades de red al equipo con Omnifind, utilicé windows y conecté como unidades de red las carpetas del servidor a indexar, que ocurrirÃa si buscaba en otro equipo donde esas unidades no existiesen, ya que la ruta al documento no serÃa la misma o incluso no existirÃa. Pues el mismo Omnifind es el que te devuelve el documento y no un enlace hacia la ruta real. Asà que no importa que el equipo donde se hagan las búsquedas no tenga acceso real al documento. Un punto positivo.
La otra duda era la reacción hacia las imágenes. En mi empresa los documentos se escanean y se almacenan y mediante un software de gestión documental donde se realizan las búsquedas. Las imágenes resultantes del escaneo, tif multipáginas, llevan el nombre de cliente, número del expediente y un nombre significativo del documento. Lógicamente el contenido de las imágenes no era posible indexarlo, pero si el sistema fuese capaz de reconocer el nombre del archivo habrÃa sido ideal, pero las imágnes son ignoradas, una pena.
Por otro lado comentar que el equipo donde lo instale para hacer pruebas tenÃa únicamente 256 MB de RAM, muy por debajo de lo recomendado (1 GB) y lo cierto es que no era capaz de indexar, aparecÃan errores de varios tipos. Tras ponerle otros 512 MB funcionó realmente bien pese a no llegar a la cantidad indicada. Tal y como indican en la documentación, no se debe instalar en un equipo normal de trabajo, le gusta coger RAM y micro hasta el punto que cualquier otra tarea se resiente.
Lo que no he tenido tiempo de comprobar es el reescaneado en busca de nuevos documentos. En teorÃa se vuelve a indexar los documentos cada 36 horas, aunque no he llegado a probarlo.
Sin duda un buen producto principalmente para las empresas con muchos documentos sin orden. Será necesario un equipo dedicado con una buena memoria y disco duro grande, a ser posible en RAID. Sin duda menos costoso que un buen software de gestión documental. ¡Ah, y es gratis!