PplWare Mobile

Web Scraping – saiba o que é e para que serve

                                    
                                

Este artigo tem mais de um ano


Autor: Hugo Cura


  1. TeclasSoltas says:

    Ora aqui esta um assunto muito interessante.
    Hugo, o web scraping é na pratica o “parente pobre” das APIs, ou seja, quando os site, ou aglomerados não têm uma API, o web scraping é um mal necessário.
    Infelizmente, como uma API é algo muito mais estavel do que um site, para alem da questão da poupança em largura de banda pelo lado do servidor, pela granularidade que apresenta, etc, uma API é sempre desejavel.
    Fazer scraping é um trabalho muito mais exigente, e a solução promovida que o Hugo apresenta, tem o inconveniente de ser um middleman, que pode ser elimindado mas à custa de ainda mais trabalho.
    Na pratica, a unica funcionalidade destes middleman é a de fazer passar o nosso trafego por algo disperso e difuso, por um conjunto de ip’s perfeitamente identicos a tantos outros “residenciais”.
    Em termos de trabalho para os devs, e tendo em conta a percentagem enorme de sites que não são estaticos, mas sim recorrem a JS, em termos de trabalho, estes middleman não têm valor.

  2. Serodio says:

    Kuanto kusta?

  3. Vitor says:

    Eu pensei que webscrapping era ilegal que foi pelo menos me disseram.
    Alguem me pode esplicar quando isto pode ser ilegal?

    Obrigado

    • Daniela says:

      Não sei se é ilegal, mas sei que pelo menos todas as rent-a-car usam este tipo de soluções exatamente para monitorizar a concorrência.

    • TeclasSoltas says:

      Está numa zona cinzenta, só por si não é ilegal, mas cada site pode e deve estipular as suas regras de utilização do próprio site, regras que estão normalmente quer nos termos de utilização, quer num ficheiro chamado robot.txt (por convenção, não é regra obrigatória), em que nesse ficheiro está descrita uma forma “aceitável” de scraping.l, ou até negar tudo e pronto.
      No entanto, muitos sites e não só, proíbem qualquer tipo de automação, ou seja, se detectarem que quem estar a usar um serviço não é um humano, mas um robot, podem desencadear uma resposta contra o autor do robot.
      Há todo um jogo de gajo e rato neste tipo de actividade.

    • TeclasSoltas says:

      Tem aqui como exemplo o site do Pplware.
      https://pplware.sapo.pt/robots.txt

  4. Luis says:

    Ilegal?! O que tu estás a fazer é leitura de informação que está disponível na página, se procurares manualmente, mas de uma forma automática… Não estás a aceder conteúdo protegido. Acho que não há nada de ilegal nisso.

  5. GFan says:

    Grande artigo, parabens

Deixe um comentário

O seu endereço de email não será publicado.

You may use these HTML tags and attributes: <a href="" title="" rel=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

Aviso: Todo e qualquer texto publicado na internet através deste sistema não reflete, necessariamente, a opinião deste site ou do(s) seu(s) autor(es). Os comentários publicados através deste sistema são de exclusiva e integral responsabilidade e autoria dos leitores que dele fizerem uso. A administração deste site reserva-se, desde já, no direito de excluir comentários e textos que julgar ofensivos, difamatórios, caluniosos, preconceituosos ou de alguma forma prejudiciais a terceiros. Textos de caráter promocional ou inseridos no sistema sem a devida identificação do seu autor (nome completo e endereço válido de email) também poderão ser excluídos.