Lucene: uma biblioteca Open Source de indexação e consulta

segunda-feira, 14 de março de 2011

Caros,

Nestes estudos, paramos para avaliar o Lucene também...
O que é Lucene?
O Lucene é famosa e conhecida biblioteca Open source para indexação e consulta de textos. Está sob o domínio da Apache Foundation e foi criada por Doug Cutting em 2000, escrita em java e pode ser utilizada em qualquer aplicativo J2SE ou J2EE.

Como funciona esta biblioteca?
Ela é formada por duas etapas principais:
Indexação - processa os dados originais gerando uma estrutura de dados inter-relacionada para pesquisa baseada em palavras-chave;
Pesquisa - consulta o índice pelas palavras digitadas pelo usuário em uma consulta e organiza os resultados pela similaridade do texto com a consulta.
Arquitetura do Lucene



Utilizando o Lucene, é possível ter um bom nível de abstração para um conjunto poderoso de técnicas baseadas no modelo vetorial e booleano.
Segundo alguns profissionais do mercado, o desenvolvedor não precisa conhecer rotinas e algoritmos de indexação, nem de consulta. Basta utilizá-los através da API da biblioteca. Entretanto, não é padrão do Lucene a indexação por crawler ou parsers de HTML / XML. Caso seja uma premissa do projeto, é necessário ser feito através da aplicação e repassado à biblioteca por meio de instâncias da classe Document.

A classe Document representa o mecanismo escolhido pelo Lucene para troca de informações entre a aplicação e a biblioteca. Um documento é composto por campos e estes campos por informações. Cada campo possui sua utilidade para a aplicação e sua importância na pesquisa. Por exemplo, campos comuns são: o ID, que não será indexado, mas será importante para que a aplicação localize o documento retornado pela pesquisa; e o TEXT que conterá a cadeia de caracteres a ser indexado e analisado pela biblioteca. O resultado da consulta é um conjunto de documentos ordenado por relevância, ou seja, os itens mais similares a consulta aparecem primeiro.

O Lucene implementa uma linguagem para consulta que proporciona:
  • pesquisas booleanas
  • restritivas
  • por campos
  • por expressões regulares
  • consultas ponderadas
  • em range
(...)  
Fonte: O globo

0 comentários:

Postar um comentário