AcessO HoT: Lucene: uma biblioteca Open Source de indexação e consulta

Caros,

Nestes estudos, paramos para avaliar o Lucene também...

O que é Lucene?
O Lucene é famosa e conhecida biblioteca Open source para indexação e consulta de textos. Está sob o domínio da Apache Foundation e foi criada por Doug Cutting em 2000, escrita em java e pode ser utilizada em qualquer aplicativo J2SE ou J2EE.

Como funciona esta biblioteca?
Ela é formada por duas etapas principais:

Indexação - processa os dados originais gerando uma estrutura de dados inter-relacionada para pesquisa baseada em palavras-chave;

Pesquisa - consulta o índice pelas palavras digitadas pelo usuário em uma consulta e organiza os resultados pela similaridade do texto com a consulta.

Arquitetura do Lucene

Utilizando o Lucene, é possível ter um bom nível de abstração para um conjunto poderoso de técnicas baseadas no modelo vetorial e booleano.

Segundo alguns profissionais do mercado, o desenvolvedor não precisa conhecer rotinas e algoritmos de indexação, nem de consulta. Basta utilizá-los através da API da biblioteca. Entretanto, não é padrão do Lucene a indexação por crawler ou parsers de HTML / XML. Caso seja uma premissa do projeto, é necessário ser feito através da aplicação e repassado à biblioteca por meio de instâncias da classe Document.

A classe Document representa o mecanismo escolhido pelo Lucene para troca de informações entre a aplicação e a biblioteca. Um documento é composto por campos e estes campos por informações. Cada campo possui sua utilidade para a aplicação e sua importância na pesquisa. Por exemplo, campos comuns são: o ID, que não será indexado, mas será importante para que a aplicação localize o documento retornado pela pesquisa; e o TEXT que conterá a cadeia de caracteres a ser indexado e analisado pela biblioteca. O resultado da consulta é um conjunto de documentos ordenado por relevância, ou seja, os itens mais similares a consulta aparecem primeiro.

O Lucene implementa uma linguagem para consulta que proporciona:

pesquisas booleanas
restritivas
por campos
por expressões regulares
consultas ponderadas
em range

(...)

Fonte: O globo

Lucene: uma biblioteca Open Source de indexação e consulta

Artigos Relacionados:

0 comentários:

Postar um comentário

Usuários online

Postagens recentes

+ populares da semana

Seguidores

Team

+ populares

Sites e Blog´s

Arquivo do blog