Como funciona a pesquisa Google?
A Internet para muitos dos seus utilizadores não é mais do que uma grande caixa negra. Apenas esperam que ao colocar um endereço de uma página num browser lhes seja retornado o conteúdo desta e que tenham acesso à informação, ou que quando colocam um termo num motor de pesquisa lhes sejam apresentadas as páginas onde é feita referência a esse termo.
Mas para que entendam um pouco mais do que se passa por de trás do pano, hoje vamos apresentar um vídeo da Google, que explica de forma simples como se trata todo o processo de obtenção de resultados de uma pesquisa.
Como puderam ver, o simples processo de pesquisa de um termo ou de uma informação obriga a que seja recolhida muita informação por essa Internet fora. São milhões de páginas que as aranhas da Google recolhem diariamente, para depois serem processadas e arquivadas, apenas aguardando que sejam necessárias.
Mesmo o processo de pesquisa desses dados pelas muitas máquinas de armazenamento de informação é algo de monstruoso. Existem naturalmente uma grande indexação e optimização da forma como os resultados são alcançados, mas não deixa de ser um processo que consome muitos recursos.
Mas e o que seria da Internet se não existissem motores de busca? Como seria o nosso dia-a-dia no acesso à informação? Tal como muitos serviços são considerados peças fundamentais na Internet, também estes motores de indexação e acesso à de informação o devem ser.
Teríamos de ter enormes listas de favoritos e a partilha de informação teria de ser feita de forma muito mais colaborativa. Aliás, por muito que se puxe pela cabeça não se deve conseguir conceber um modelo que não passe pela utilização de crawlers e de spiders para "leitura" e recolha de informação da Internet.
A Google, como dona do maior motor de busca da Internet soube explorar bem o seu negócio. Por muitos serviços que façam nascer e crescer, o seu negócio principal é a informação e todos os mecanismos que podem ser utilizados com base nela. O exemplo da publicidade, apresentado no vídeo, é excelente. Fazem uso da informação que recolhem e da necessidade que os internautas têm dela para exporem anúncios relacionados com as pesquisas efectuadas. É este modelo que alimenta e gera fundos para sustentar todos os serviços.
Muitas vozes se levantam contra o alimentar dessa enorme fonte de informação que está a ser construída. Mas e essas vozes têm fundamento? Não está a Google apenas interessada em ganhar dinheiro com algo que a Internet tem disponível? Não me parece errado pois o retorno é óbvio. A facilidade com que escrevemos um termo e obtemos milhares de páginas de resultados tem um preço. Se esse preço for apenas os anúncios que são mostrados, então parece-me que, provavelmente, ainda estamos a dever algo à Google.
Estará a Google errada ao fazer render desta forma todo o trabalho que desenvolve na recolha da informação? É esta a pergunta que vos deixamos neste Sábado.
Homepage: How Google Works
Este artigo tem mais de um ano
^_^
E Justo!
o_O
“Estará a Google errada ao fazer render desta forma todo o trabalho que desenvolve na recolha da informação?”
Nada errada. Qualquer empresa que existe tenta optimizar os seus lucros da melhor forma possível. O modelo de negócios da Google neste momento é capaz de ser um dos melhores modelos existentes:
Prestamos os nossos serviços gratuitamente e em troca apenas colocamos publicidade em algum canto da página. Os nossos utilizadores ficam contentes por poderem usufruir de excelentes produtos de forma gratuita e a Google é paga através das adds.
Na minha opinião pessoal, prefiro ter acesso a uma internet onde os serviços existestes são gratuitos tendo apenas um banner publicitário em qualquer canto, do que uma web mais “limpa” em que tenho de pagar para usufruir de todo o seu potencial.
Concordo a 100%!
Então se a Google indexa toda a web, incluindo todo o texto nos seus servidores, quer isso dizer que nos servidores da google está uma cópia de toda a web?
Por outra palavras, sim, praticamente.
Mas nem precisas de ir ao Google, basta ver a Wayback Machine: http://www.archive.org/web/web.php
Inseres o endereço e vês a evolução de qualquer website desde a sua fundação. Google.com, pplware.com, está lá tudo!
Awesome!!! *_*
Este webcast já tem uns anos, mas dá para ter um ideia mais “técnica” do sistema envolvido numa pesquisa, além de outros temas igualmente interessantes.
http://www.researchchannel.org/prog/displayevent.aspx?rID=2879
Cumps,
PS
O Google não indexa todas as páginas Web, está muito longe de o conseguir! – talvez um dia com mais Web Semântica. Muitos dos conteúdos publicados em páginas web derivam da publicação dinâmica de dados armazenados em bases de dados, muitos deles protegidos. Além disso a maior parte não utiliza normas que permitam a sua correcta indexação (OAI-PHM, RDF..) preferem formatos proprietários! Infelizmente os motores de pesquisa ainda não aguentam a “pressão” de águas mais profundas(DeepWeb)!