Archivo de la categoría "Posicionamiento"

Haciendo pruebas con IBM Omnifind Yahoo! Edition

Lunes, 22 de Enero de 2007

IBM Omnifind Yahoo! Edition es un software gratuito basado en el motor Lucene que nos permite de forma fácil indexar y realizar búsquedas en hasta un total de 500000 (quinientos mil) documentos.

El funcionamiento no puede ser más fácil. La instalación es simple a más no poder. Una vez instalado únicamente hemos de indicarle, desde el panel de administación, que dirección web o carpeta de documentos deseamos que indexe. No hay cantidad de opciones, prácticamente el sistema se limita a añadir y eliminar lugares (carpetas o webs) que deseamos indexar, borrar el índice e información del estado del índice. Además nos da estadísticas de las consultas e incluso podemos personalizar la página de busqueda sin meternos en html.
Las consultas se hacen desde un navegador y existe posibilidad de comunicarse con el buscador mediante una API. La opciones para actuar sobre el ranking son pocas: fecha de modificación del documento, la profundidad del documento en el path o la url y web links o enlaces al documento.

Si desactivamos las tres opciones es sistema únicamente tendrá en cuenta las keywords dentro del documento. Así si disponemos de varias versiones de la misma página con diferentes tipos de optimización podremos cual considera el motor que es la más válida. Tendremos un sistema de comprobación de la optimización ‘in-page’ sin tener que esperar a que nos indexe un buscador y ver que resultados nos da.

Otra forma de darle uso es dentro de la empresa como buscador corporativo. En mi caso lo he probado de la forma indicada arriba y como buscador en el archivo de la empresa donde trabajo, sobre más de 75000 documentos. El sistema es bastante rápido en escanear, tardó unas 4 horas en escanear las carpetas con multitud de documentos de muchos tipos, word, html, msg (mensajes de correo de outlook), pdf, excel, power point, txt… accediendo desde la red ya que los datos estaban en uno de los servidores y Omnifind en un ordenador viejo utilizado para la ocasión.

Una de mis dudas era que si le conectaba las unidades de red al equipo con Omnifind, utilicé windows y conecté como unidades de red las carpetas del servidor a indexar, que ocurriría si buscaba en otro equipo donde esas unidades no existiesen, ya que la ruta al documento no sería la misma o incluso no existiría. Pues el mismo Omnifind es el que te devuelve el documento y no un enlace hacia la ruta real. Así que no importa que el equipo donde se hagan las búsquedas no tenga acceso real al documento. Un punto positivo.

La otra duda era la reacción hacia las imágenes. En mi empresa los documentos se escanean y se almacenan y mediante un software de gestión documental donde se realizan las búsquedas. Las imágenes resultantes del escaneo, tif multipáginas, llevan el nombre de cliente, número del expediente y un nombre significativo del documento. Lógicamente el contenido de las imágenes no era posible indexarlo, pero si el sistema fuese capaz de reconocer el nombre del archivo habría sido ideal, pero las imágnes son ignoradas, una pena.

Por otro lado comentar que el equipo donde lo instale para hacer pruebas tenía únicamente 256 MB de RAM, muy por debajo de lo recomendado (1 GB) y lo cierto es que no era capaz de indexar, aparecían errores de varios tipos. Tras ponerle otros 512 MB funcionó realmente bien pese a no llegar a la cantidad indicada. Tal y como indican en la documentación, no se debe instalar en un equipo normal de trabajo, le gusta coger RAM y micro hasta el punto que cualquier otra tarea se resiente.

Lo que no he tenido tiempo de comprobar es el reescaneado en busca de nuevos documentos. En teoría se vuelve a indexar los documentos cada 36 horas, aunque no he llegado a probarlo.
Sin duda un buen producto principalmente para las empresas con muchos documentos sin orden. Será necesario un equipo dedicado con una buena memoria y disco duro grande, a ser posible en RAID. Sin duda menos costoso que un buen software de gestión documental. ¡Ah, y es gratis!

O lo barato sale caro

Viernes, 13 de Octubre de 2006

Via Ojobuscador he encontrado en Davilac esta experiencia. Cuando el alta es a la baja cuenta el efecto negativo que puede tener esas ‘ofertas’ de 50 mil, 100 mil o un millón de directorios y buscadores por tres duros, lo barato sale caro.

Existen muchos programas que en teoria hacen estas funciones, hace varios años los vi en marcha y lo único claro fue el bombardeo de spam, y no sólo durante el alta, la dirección quedaba casi inutilizada, varios cientos de correos basura al día. Y tal cantidad es bastante hasta para ahora.

Hay teorías que dicen que Google no penaliza por algo externo a la web, aunque no lo tengo claro. Penalizar no penaliza ya que la web sigue apareciendo en los resultados. Quizás el efecto será el conocido como Sandbox, un crecimiento antinatural de enlaces en webs de poca confianza debe dar un buen empujón al pozo del Sandbox. Ya sé que sigue habiendo gente que aún no cree en el filtro del Sandbox, en otro momento escribiré sobre ello.

En definitiva, tanto si usais Omnibius como si no, al conseguir enlaces, en directorios u otras webs, no hay que precipitarse. Se trata de un trabajo que debe extenderse por unos meses, cada semana nos daremos de alta en unos pocos directorios. Las prisas suelen ser malas consejeras.