Caros,
Nestes estudos, paramos para avaliar o Lucene também...
O que é Lucene?
O Lucene é famosa e conhecida biblioteca Open source para indexação e consulta de textos. Está sob o domínio da Apache Foundation e foi criada por Doug Cutting em 2000, escrita em java e pode ser utilizada em qualquer aplicativo J2SE ou J2EE.
Como funciona esta biblioteca?
Ela é formada por duas etapas principais:
O Lucene é famosa e conhecida biblioteca Open source para indexação e consulta de textos. Está sob o domínio da Apache Foundation e foi criada por Doug Cutting em 2000, escrita em java e pode ser utilizada em qualquer aplicativo J2SE ou J2EE.
Como funciona esta biblioteca?
Ela é formada por duas etapas principais:
Indexação - processa os dados originais gerando uma estrutura de dados inter-relacionada para pesquisa baseada em palavras-chave;
Pesquisa - consulta o índice pelas palavras digitadas pelo usuário em uma consulta e organiza os resultados pela similaridade do texto com a consulta.
Arquitetura do Lucene
Utilizando o Lucene, é possível ter um bom nível de abstração para um conjunto poderoso de técnicas baseadas no modelo vetorial e booleano.
Segundo alguns profissionais do mercado, o desenvolvedor não precisa conhecer rotinas e algoritmos de indexação, nem de consulta. Basta utilizá-los através da API da biblioteca. Entretanto, não é padrão do Lucene a indexação por crawler ou parsers de HTML / XML. Caso seja uma premissa do projeto, é necessário ser feito através da aplicação e repassado à biblioteca por meio de instâncias da classe Document.
A classe Document representa o mecanismo escolhido pelo Lucene para troca de informações entre a aplicação e a biblioteca. Um documento é composto por campos e estes campos por informações. Cada campo possui sua utilidade para a aplicação e sua importância na pesquisa. Por exemplo, campos comuns são: o ID, que não será indexado, mas será importante para que a aplicação localize o documento retornado pela pesquisa; e o TEXT que conterá a cadeia de caracteres a ser indexado e analisado pela biblioteca. O resultado da consulta é um conjunto de documentos ordenado por relevância, ou seja, os itens mais similares a consulta aparecem primeiro.
O Lucene implementa uma linguagem para consulta que proporciona:
A classe Document representa o mecanismo escolhido pelo Lucene para troca de informações entre a aplicação e a biblioteca. Um documento é composto por campos e estes campos por informações. Cada campo possui sua utilidade para a aplicação e sua importância na pesquisa. Por exemplo, campos comuns são: o ID, que não será indexado, mas será importante para que a aplicação localize o documento retornado pela pesquisa; e o TEXT que conterá a cadeia de caracteres a ser indexado e analisado pela biblioteca. O resultado da consulta é um conjunto de documentos ordenado por relevância, ou seja, os itens mais similares a consulta aparecem primeiro.
O Lucene implementa uma linguagem para consulta que proporciona:
- pesquisas booleanas
- restritivas
- por campos
- por expressões regulares
- consultas ponderadas
- em range
(...)
Fonte: O globo
0 comentários:
Postar um comentário