Os motores de pesquisa são actualmente confundidos com a própria Internet. É normal milhões de pessoas, por esse mundo fora, ter o google como página principal do seu browser, e isso ser, para elas… a Internet. Tudo gira em torno da pesquisa, do que existe na Internet aos olhos de um Google, Bing ou Yahoo.
Mas como funciona o “cérebro” de um motor de pesquisa?
Vamos saber um pouco mais sobre esta ferramenta vital para a Internet, o que é o mesmo que dizer, uma ferramenta vital para a sociedade moderma.
A lógica Booleana
A partir da lógica Boole, a maior parte dos sistemas de recuperação de informação, exemplo Motores de Pesquisa, como a Google, entre outros, actua segundo o princípio de “textmatching”, pelo qual um termo de pesquisa (palavra ou conjunto de palavras) é introduzido numa caixa de pesquisa e o sistema devolve um conjunto de registos da base de dados que contêm o termo ou termos em questão.
Contudo são poucos os tópicos de pesquisa que podem ser adequadamente expressos por uma simples palavra ou frase curta. A lógica booleana vai permitir combinar esses termos de modo a possibilitar a introdução de expressões de pesquisa mais complexas na base de dados.
Os operadores booleanos mais comuns são:
- and
- or
- not
O operador AND é similar à intersecção de conjuntos.
É usado para restringir uma pesquisa ou torná-la mais específica
- Nesta pesquisa, são recuperados os registos em que AMBOS os termos estão presentes;
- A área sombreada onde os dois círculos se intersectam representa todos os registos que Contêm simultaneamente o termo “poverty” e o termo “crime”;
- Os registos que apenas contêm um dos termos não são recuperados.
Quantos mais operadores AND utilizarmos, menor será o número de registos recuperados.
Operador OR
O operador OR é similar à união de conjuntos.
É usado para alargar uma pesquisa ou torná-la mais completa, através da inclusão de sinónimos ou termos variantes para o mesmo conceito.
- Nesta pesquisa, recuperamos os registos em que PELO MENOS UM dos termos está presente;
- A área total dos dois círculos representa todos os registos que contêm o termo “college”, o termo “university”, ou ambos.
Quantos mais operadores OR utilizarmos, maior será o número de registos recuperados.
- O operador OR é frequentemente desprezado por utilizadores menos experientes;
- É, no entanto, fundamental para uma recuperação eficiente da informação, até porque os termos utilizados para expressar um mesmo conceito podem variar muito, mesmo dentro de uma mesma base de dados.
Exemplo:
– Doença das vacas loucas OR encefalopatia espongiforme bovina OR BSE
– Comunidade Europeia OR União Europeia OR European Union
Operador NOT
O operador NOT é usado para restringir uma pesquisa através da exclusão de um termo
- Nesta pesquisa, são recuperados apenas os registos em que o PRIMEIRO termo está presente e o SEGUNDO ausente;
- A área sombreada do primeiro círculo representa os registos que contêm o termo “cats” mas não o termo “dogs”;
- Os registos que contêm ambos os termos não são recuperados.
- O operador NOT deve ser usado com cuidado: o termo que pretendemos obter pode estar presente em documentos importantes que também contenham a palavra que pretendemos eliminar;
- O operador NOT, contrariamente aos outros, é influenciado pela ordem dos termos.
“cats” not “dogs” é diferente de: “dogs” not “cats”
Utilizando os operadores booleanos, poderemos compor expressões de pesquisa complexas (pollution OR contamination) AND (ocean OR sea)
Truncatura
A truncatura permite pesquisar termos com terminações diferentes; A truncatura permite alargar a pesquisa, obtendo um maior número de registos.
Wildcards (variáveis)
Para recuperar grafias diferentes de um mesmo termo, muitas bases de dados permitem a inclusão de variáveis.
- wom?n pesquisa woman e women (singular e plural)
- colo?r pesquisa colour e color (grafias diferentes do inglês)
- bra?il pesquisa brasil e brazil (línguas diferentes)
- Egi?to pesquisa Egipto e Egito (grafias diferentes do português)
Operadores booleanos: problemas
Para satisfazer uma pesquisa, os termos de pesquisa apenas precisam de aparecer num qualquer ponto do registo.
Assim, a expressão…
“school” AND “libraries”
…recuperará todos os registos que contenham o termo “school” e o termo “libraries”; Mesmo que um dos termos apareça no título e outro no resumo; Mesmo que o registo nada tenha a ver com bibliotecas escolares, que seria, à partida, o que se pretenderia.
Artigo escrito por: Sara Guimarães
Cientista da Informação
Publicação inspirada pelo Professor Manuel Montenegro