Sabia que tem ajudado na digitalização de livros antigos?

12 Set 2012 · Google/YouTube 56 Comentários

reCAPTCHA - A evolução do projecto CAPTCHA

Todos os que usam a Internet já usaram certamente CAPTCHAs. Esta funcionalidade permite garantir a autenticidade de um utilizador (garantindo que é um utilizador e não uma máquina/programa de computador), perante uma página/serviço Web.

Luis von Ahn, um dos criadores dos captchas, apresentou recentemente no Ted.com a evolução do projecto captcha à qual foi dado o nome de reCAPTCHA. Luis von Ahn referiu que o tempo que um utilizador gasta a interpretar uma CAPTCHA não é usado para qualquer finalidade. Assim, porque não aproveitar esse tempo e conceito associado ao projecto CAPTCHA para digitalizar livros?

Veja o vídeo da apresentação do Luis von Ahn intitulada Massive-scale online Collaboration; e leia a tradução que preparamos em português:

Luis von Ahn

Quantos de vocês já tiveram de preencher um formulário na Web onde vos pediram para ler uma sequência distorcida de caracteres como esta? Quantos de vocês acharam isto irritante? OK, espetacular, fui eu que inventei isso...ou pelo menos fui um dos que inventou isso. A esta coisa chama-se CAPTCHA.

E está ali para certificar que quem está a preencher o formulário é sem duvida um humano e não um programa informático desenvolvido para submeter o formulário milhões e milhões de vezes.

Isto funciona porque os humanos, pelo menos os humanos sem limitações visuais, não têm qualquer problema em ler estes caracteres distorcidos, enquanto os programas informáticos simplesmente ainda não o conseguem fazer tão bem. Por exemplo, no caso do Ticketmaster, a razão pela qual temos de escrever caracteres distorcidos é para prevenir os "burlões" de escrever um software que consiga comprar milhões de bilhetes...dois de cada vez, etc, etc.

Os CAPCTHAs são usados em toda a Internet. E como eles são usados com tanta frequência, muitas vezes, a sequência de caracteres aleatórios que é mostrada ao utilizador, não é muito "feliz". Aqui está um exemplo da página de registo do Yahoo. Os caracteres aleatórios mostrados ao utilizador foram W A I T, que obviamente formam uma palavra. Mas a melhor parte é a mensagem que os serviços da Yahoo receberam cerca de 20 minutos mais tarde.

Texto: "Ajudem-me! Estou a espera há mais de 20 minutos e nada acontece" 🙂

O projecto CAPTCHA foi algo que desenvolvemos aqui na Universidade de Camegie Mellon há cerca de 10 anos e é usado por todo o mundo. Deixem-me falar-vos de um projecto que desenvolvemos posteriormente e que é uma espécie de evolução do CAPTCHA. É um projecto a que chamamos de reCAPTCHA, que é algo que começamos aqui na Camegie Mellon, e que transformamos numa Startup. E, há cerca de um ano e meio, a Google comprou esta empresa.

Este projecto começou através da seguinte percepção: Aproximadamente 200 milhões de CAPTACHs são escritos todos os dias por pessoas em todo o mundo. Quando escrevemos um CAPCTHA, desperdiçamos cerca de 10 segundos do nosso tempo e se multiplicarmos isso por 200 milhões, percebemos que a humanidade, no seu todo, gasta cerca de 500.000 horas todos os dias a escrever CAPTCHAS irritantes. No entanto, não nos podemos livrar dos CAPTCHAS pois parte da segurança da Web depende deles!

Existe alguma forma de reaproveitar este esforço para algo que seja com para a humanidade?

Reparem no seguinte: Quando escrevem o CAPTCHA, durante esse 10 segundos, o vosso cérebro está a fazer algo fascinante. O vosso cérebro está a fazer algo que os computadores ainda não conseguem fazer!

Como é que conseguimos que os 10 segundos "desperdiçados" se transformem em algo útil?De outra perspectiva, existe um problema gigantesco que não conseguimos que os computadores resolvam, no entanto podemos dividi-lo em períodos de 10 segundos, de tal forma que, sempre que alguém escreve um CAPTCHA se resolva uma pequena parte deste problema?

E a resposta é "sim!" e é isso que estamos a fazer agora. Por isso o que podem não saber é que hoje em dia, enquanto escrevem um CAPTCHA, estão, não só a "autenticar-se" como humanos, mas também estão a ajudar a digitalizar livros.

Escrever CAPTCHAS estão a ajudar a escrever livros. Como funciona?

Existem imensos projectos por aí a tentar digitalizar livros. A Google tem um...O Internet Archive tem outro, A Amazon agora com o Kindle...etc.

Basicamente a forma como funciona é: começa-se por pegar num livro velho e depois digitalizamo-lo. Digitalizar um livro é como tirar uma fotografia digital a cada página do livro. Isto é, uma imagem com texto por cada página do livro. O próximo passo no processo é o computador decifrar todas as palavras da imagem, usando para isso uma tecnologia denominada de OCR...o problema é que o OCR não é perfeito!...especialmente para livros mais velhos onde a tinta está a falhar e as páginas já estão amarelas, fazendo com que o OCR não consiga reconhecer muitas palavras. Por exemplo, para livros escritos há mais de 50 anos, o computador não consegue reconhecer cerca de 30% das palavras.

O que se está a fazer agora é extrair todas as palavras que o computador não consegue reconhecer e fazer com que as pessoas leiam por nós, enquanto escrevem um CAPTCHA nos vários serviços da Internet.

Por isso, da próxima vez que escrevem um CAPTCHA, as palavras que escreverem, são de facto palavras que saem de livros que estão a ser digitalizados e que o computador não consegue reconhecer. A razão por hoje em dia existirem duas palavras no CAPTCHA é porque uma das palavras é do livro, a qual o sistema não sabe qual é, e depois uma segunda palavra para o qual o sistema conhece a resposta. O sistema não diz qual das palavras é a do livro e por isso, caso acertem na palavra que ele valida, então ele assume que a palavra foi escrita por um humano.

Se repetirmos este processo, por exemplo, por 10 pessoas diferentes, e se todas as pessoas concordarem sobre qual é a nova palavra, então temos mais uma palavra digitalizada correctamente. É assim que o nosso sistema funciona !!!

O Twitter, Facebook e cerca de 350.000 outros sites, já estão a usar o reCAPTCHA. Atualmente, com o número de sites que estão a usar o novo reCAPTCHA, o numero de palavras obtidas diariamente é realmente grande. Por serem dadas duas palavras, acontecem também situações "engraçadas". Como as palavras são fornecidas de forma aleatórias, podem aparecer coisas como "mau Cristão"...não tem nada de mal, nem sequer queremos insultar ninguém...são coisas do sistema! 🙂

750,000,00 (cerca de 10% da população mundial), é o numero de pessoas que já ajudaram a digitalizar, pelo menos uma vez, um livro através do sistema reCAPTCHA, aumentando assim o "conhecimento humano" digitalizado.

Como é que conseguimos que 100 milhões de pessoas, gratuitamente, traduzam a Web para as principais linguas? Concentrem-se a partir ddo minuto 9h15 o objectivo do novo projecto que se chama Duolingo e que brevemente apresentaremos no Pplware.

Sabia que ajudava na digitalização de livros antigos. O que acha desta ideia?

Agradecimento ao Francisco, pela sugestão do tema!

Este artigo tem mais de um ano

Acompanhe o Pplware no Google Notícias

Propor Revisão Proponha uma correção, faça uma sugestão

Autor: Pedro Pinto

Comentários56

Blizard says:

12 de Setembro de 2012 às 11:11

É uma ideia altamente eficiente, obviamente!
Ajudar sem esforço extra.

Responder
Pedro Pinho says:

12 de Setembro de 2012 às 11:19

Num mar de banalidades, trivialidades e consumismo que a internet consegue ser, é bom vermos algo realmente construtivo e de valor ser feito…
O pessoal do reCAPTCHA está de parabéns!…

Responder
João Canudo says:

12 de Setembro de 2012 às 11:32

E com isto estamos mais uma vez a fazer com que a google predomine no mercado da internet, sem o nosso conhecimento.

Responder
- Ricardo Amaral says:
  
  12 de Setembro de 2012 às 16:12
  
  /inserir aqui meme de facepalm
  
  Responder
Cris. says:

12 de Setembro de 2012 às 11:32

Impressive ! 😀

Responder
Pedro says:

12 de Setembro de 2012 às 11:44

Realmente a ideia é fantástica!

Mas para deitar achas para a fogueira…

Quanto vou pagar por um livro que ajudei a digitalizar?

🙂

Responder
- André Meireles says:
  
  12 de Setembro de 2012 às 12:03
  
  Bem, pelo que está numa das imagens acima, leio que “Google Acquires reCAPTCHA”.
  
  Sendo assim, creio que o valor que vais pagar quando o livro estiver digitalizado e no repositório da google é.. 0!;)
  
  Responder
Bruno says:

12 de Setembro de 2012 às 11:44

Nunca mais vou reclamar dos Captchas xD

Responder
Pedro says:

12 de Setembro de 2012 às 11:45

Não sabia, muito bom.
Mas deixo uma crítica ao facto de, pelo menos que me lembre, ser só palavras em inglês. Muito conhecimento, principalmente livros antigos estão escritos nas mais variadas línguas.

Responder
rafael says:

12 de Setembro de 2012 às 11:47

Ideia genial!! nunca tinha pensado nisto!

Responder
nuno says:

12 de Setembro de 2012 às 11:53

E esta hein….

Responder
Pedro says:

12 de Setembro de 2012 às 12:03

Genial!!!!!!!!

Responder
Sergio says:

12 de Setembro de 2012 às 12:10

Inicialmente colocava as duas palavras, depois descobri que não era necessário e passei só para uma. Mas aqui há uns meses atras li este assunto num blog de tecnologia qq e voltei a colocar as duas palavras e dar o meu contributo

Responder
paulex says:

12 de Setembro de 2012 às 12:16

Hum ideia fantástica, mas à imagem dos Captchas não está já associado a um respectivo código/texto dactilografado? Ou seja, o conteúdo da imagem, não está já digitado sob a forma de texto que permite a comparação entre o que digitamos e o arquivo associado à imagem? Desculpem a ignorância de estiver a dizer uma barbaridade.

Responder
- Pedro says:
  
  12 de Setembro de 2012 às 12:26
  
  Uma das palavras sim uma das palavras é conhecida… o que permite confirmar se és humadno 😛
  
  Mas a outra é desconhecida… esta ate a podes errar que o sistema n tem capacidade para perceber…
  😉
  
  Responder
  - paulex says:
    
    12 de Setembro de 2012 às 14:11
    
    Ah já percebi obrigado pela partilha 😉 Agora já faz sentido.
    
    Responder
    - Duarte alves says:
      
      13 de Setembro de 2012 às 00:21
      
      É por isso que a palavra só fica OK para ser digitalizada após varias validações corretas por parte dos utilizadores, como diz no artigo:
      “Se repetirmos este processo, por exemplo, por 10 pessoas diferentes, e se todas as pessoas concordarem sobre qual é a nova palavra, então temos mais uma palavra digitalizada correctamente.”
      
      Responder
- paulex says:
  
  12 de Setembro de 2012 às 12:28
  
  correcção: “…Desculpem a ignorância se estiver a dizer uma barbaridade.”
  
  Responder
Francisco Monteiro says:

12 de Setembro de 2012 às 12:21

Mais uma ideia impressionante que o google implementa. Também conheci este projecto há pouco tempo, acredito que se houver bastante adesão no projecto Duolingo, podemos vir a ter acesso ao (Eu sei português e quero aprender alemão). Actualmente para aprender alemão, tem que se saber inglês ou espanhol neste site. Mas isso será matéria, como o Pedro disse para um próximo artigo.

Parabéns pelo artigo Pedro.

Responder
- Pedro Pinto says:
  
  12 de Setembro de 2012 às 12:30
  
  Obrigado Francisco pela sugestão do tema do artigo.
  
  PP
  
  Responder
  - Francisco Monteiro says:
    
    12 de Setembro de 2012 às 12:43
    
    u r welcome
    
    Responder
Marisa Pinto says:

12 de Setembro de 2012 às 12:22

Muito bom este artigo! Eu desconhecia por completo, e como devoradora de livros (infelizmente tenho lido menos), acho que estas ideias são as que fazem falta no mundo.
Ainda agora para o soundcloud as palavras que surgiram foram:
ntradth e 51.2
Penso que para o livro seja entao a 51.2 a não ser se seja um livro ucraniano 😀

Cumprimentos 😉

Responder
- Pedro says:
  
  12 de Setembro de 2012 às 12:29
  
  heheh Pelo que percebi a palavra do livro é sempre a mais fácil de interpretar.
  
  Responder
  - Lino Domingues says:
    
    22 de Junho de 2014 às 09:07
    
    Pedro depende dos livros as palavras dos livros sao sempre as que o OCR nao consegue identificar
    
    Responder
Abílio says:

12 de Setembro de 2012 às 12:48

Excelente, parabéns pelo artigo Pedro.

Responder
Joao says:

12 de Setembro de 2012 às 12:49

Por acaso já sabia que ajudava na digitalização de livros à muito tempo.

Acho é incrédulo como é que tanta gente que por aqui comenta e que está obviamente ligado ao mundo das TI’s não saber o que estava a fazer ao introduzir um CAPTCHA. Ainda por cima isto é algo que fazemos provavelmente todas as semanas, como é que nunca vos despertou curiosidade para pesquisar sobre o assunto?

De qualquer das formas o artigo é muito bom. Parabéns.

Responder
- TI&TI says:
  
  12 de Setembro de 2012 às 13:56
  
  Eu faço todos os dias e nunca soube dessa “2ª finalidade”.
  E também posso por a questão de outra forma, não haverá coisas mais importantes que se deva saber “no mundo das TI” ?
  E quem já o sabia, tem mais competências no “mundo das TI” que os restantes?
  Quantas ideias relacionadas com as TI são postas em prática diaramente? Alguém as conhece todas?
  
  Em nome dos ignorantes, agradeço a informação.
  
  Responder
  - Joao says:
    
    12 de Setembro de 2012 às 16:20
    
    Claro que há coisas mais importantes, concordo plenamente. No entanto acho estranho porque já surgiram inúmeros artigos sobre isto no passado (não em português) pelo que pensei que a maioria sabia o que estava a fazer ao digitar um captcha.
    
    Como já referi, apenas demonstrei estranheza por verificar que a maioria desconhecia, esta “2ª finalidade”. Não queria ofender ninguém.
    
    Cumps.
    
    Responder
  - eu says:
    
    12 de Setembro de 2012 às 16:42
    
    de acordo ctg,o mundo infelizmente está cheio de pessoas q se julgam os maiores. como é o caso do joão
    
    Responder
António Pereira says:

12 de Setembro de 2012 às 13:18

A ideia é excelente, mas serei só eu que não suporto os CAPTCHA? Por vezes há alguns que são simplesmente impossíveis de ser compreendidos e só prejudicam o utilizador.

Responder
- ze says:
  
  12 de Setembro de 2012 às 13:22
  
  mesmo
  
  Responder
Goncalo Alves says:

12 de Setembro de 2012 às 13:18

eu escrevo sempre a palavra q e precisa e a outra e sempre nigga
trolololol

Responder
- Francisco Monteiro says:
  
  12 de Setembro de 2012 às 13:31
  
  Consegues sempre perceber qual é a digitalizacão da palavra obrigatória?
  
  Responder
  - César Ribeiro says:
    
    12 de Setembro de 2012 às 19:02
    
    a palavra obrigatória é aquela que é mais fácil de ler 😀
    
    Mas sempre pus as duas, for the sake of knowledge.
    
    Responder
Pedro Domingues says:

12 de Setembro de 2012 às 13:42

Tenho uma questão. Se nós estamos a ajudar na digitalização de duas palavras em cada captcha, como é que ele sabe que escrevi o que está realmente lá se supostamente sou eu que as vou digitalizar?

Responder
- TI&TI says:
  
  12 de Setembro de 2012 às 13:58
  
  A resposta está no artigo.
  
  Responder
- IR says:
  
  12 de Setembro de 2012 às 14:24
  
  “Por isso, da próxima vez que escrevem um CAPTCHA, as palavras que escreverem, são de facto palavras que saem de livros que estão a ser digitalizados e que o computador não consegue reconhecer. A razão por hoje em dia existirem duas palavras no CAPTCHA é porque uma das palavras é do livro, a qual o sistema não sabe qual é, e depois uma segunda palavra para o qual o sistema conhece a resposta. O sistema não diz qual das palavras é a do livro e por isso, caso acertem na palavra que ele valida, então ele assume que a palavra foi escrita por um humano.
  
  Se repetirmos este processo, por exemplo, por 10 pessoas diferentes, e se todas as pessoas concordarem sobre qual é a nova palavra, então temos mais uma palavra digitalizada correctamente. É assim que o nosso sistema funciona !!!”
  
  Responder
  - Pedro Domingues says:
    
    17 de Setembro de 2012 às 09:50
    
    Ah são precisas 10 pessoas para confirmar! Ok 😀
    Muito bom sistema!
    
    Responder
- Gil says:
  
  12 de Setembro de 2012 às 14:50
  
  Não são as duas é apenas uma e só é aceite a nova palavra quando um determinado número de pessoas escreve a mesma palavra.
  
  São apresentadas duas palavras, uma o computador conhece, a outra é desconhecida e é essa que é a contribuição para a digitalização do livro.
  
  Responder
- Joel Henriques says:
  
  12 de Setembro de 2012 às 14:52
  
  como diz no artigo um o pc não tem como saber se é veridica ou não a outra sim ele tem a imagem associada a uma palavra se errares essa ele recusa o pedido que fizeres
  mas saber qual é a que o pc sabe podes falhar pelo menos 50% das vezes
  mais vale dar uma pequena ajudita e fazer bem as coisas
  
  Responder
  - Pedro Domingues says:
    
    17 de Setembro de 2012 às 09:50
    
    Não vejo qual o interesse de saber qual das duas é a conhecida ou a desconhecida. Meto sempre as duas.
    
    Responder
IR says:

12 de Setembro de 2012 às 14:23

FANTASTICO!!

Responder
Ruaben says:

12 de Setembro de 2012 às 14:56

ajudei a mudar o mundo! sinto-me mais util. 😛
não fazia a minima, muito bom

Responder
AC says:

12 de Setembro de 2012 às 15:33

Fantástico! sem dúvida… mas há tanta gente em todo mundo a precisar de trabalhar para comer… E com tanto dinheiro que o mundo digital dá… não sei se não considero isto uma exploração sem autorização

Responder
guy says:

12 de Setembro de 2012 às 15:57

Já sabia disto. Acho a ideia muito boa e tenho colaborado desde que descobri para que servia a 2ª palavra, mas agora a dificuldade da palavra de verificação está terrível. Acho que estão a abusar bué. Quando se tem de escrever o captcha 3-4 vezes pa acertar perde-se a boa vontade. As queixas de exploração tb têm alguma razão mas ao menos é trabalho útil.

Responder
Scheldon says:

12 de Setembro de 2012 às 16:47

Isso soa como uma desculpa para as pessoas pararem de reclamar desses tumores que tanto irritam.

Responder
- Marisa Pinto says:
  
  12 de Setembro de 2012 às 17:20
  
  Eu também acho que as pessoas reclamam de qualquer coisa, mas quando devem reclamar dos seus direitos, encolhem-se, ficam com medo e não fazem nada, eheh
  
  Cumprimentos
  
  Responder
sergio says:

12 de Setembro de 2012 às 19:55

a meio do vídeo pensei: então se o computador não sabe o que a palavra quer dizer como é que vai saber que os utilizadores estão a dizer a verdade?

depois vi que era tão simples com 2 palavras e pensei sou mesmo burro lol

Responder
- POliveira says:
  
  15 de Dezembro de 2012 às 16:18
  
  Tal como eu e provavelmente 98% das pessoas 🙂
  Dos restantes, 1% são iluminados que perceberam logo como fazer a “despistagem” e os outros 1% são os que nem estavam a entender nada, portanto nem tiveram essa dúvida xD
  
  Responder
César Oliveira says:

13 de Setembro de 2012 às 09:33

Os capchas tem sido uma das maiores barreiras á acessibilidade e usabilidade de um site.

Eu abomino Capchas

Cumprimentos
César Oliveira
http://www.profissionalweb.net

Responder
Angelo Brito says:

13 de Setembro de 2012 às 09:54

Estive ainda com mais atenção quando falaram do duolingo, realmente é uma solução muito boa mas… o portugues (uma das linguas pouco traduzidas na internet) continua a ser posta de lado… no site apenas surge Ingles, Alemão, Espanhol e Francês…

Responder
- POliveira says:
  
  15 de Dezembro de 2012 às 16:18
  
  @Angelo Brito
  
  Agora já surge o Português 😀
  
  Responder
Tiago Correia says:

13 de Setembro de 2012 às 10:06

Normalmente os CAPTCHAs dão para escrever sem acentos, nos livros digitais, também irá ficar sem acentos??

Responder
- sergio says:
  
  13 de Setembro de 2012 às 10:29
  
  secalhar essa é a palavra que o captchas conhece, a outra é a que tu identificas-te
  
  Responder
POliveira says:

15 de Dezembro de 2012 às 16:20

Impressionante como ideias geniais podem ser tão simples!
O projecto duolingo mencionado no vídeo também é bastante promissor!

Responder
Paulo says:

22 de Junho de 2014 às 04:26

Pois é, eu não quero ser crítico pq tenho até tendência de ser fã de todas as ideias inteligentes. Então sou fã de mais esta, como o marketing consegue pegar numa coca cola, integrá-la num marketing da felicidade q leva até a esquecer o quão mal esta faz à saúde.

Aqui é igual, um marketing muito bonitinho para a tecnologia mais irritante da internet!

Mas, está muito boa a ideia e claro, o marketing também!

Responder

Deixe um comentário Cancelar Resposta

Aviso: Todo e qualquer texto publicado na internet através deste sistema não reflete, necessariamente, a opinião deste site ou do(s) seu(s) autor(es). Os comentários publicados através deste sistema são de exclusiva e integral responsabilidade e autoria dos leitores que dele fizerem uso. A administração deste site reserva-se, desde já, no direito de excluir comentários e textos que julgar ofensivos, difamatórios, caluniosos, preconceituosos ou de alguma forma prejudiciais a terceiros. Textos de caráter promocional ou inseridos no sistema sem a devida identificação do seu autor (nome completo e endereço válido de email) também poderão ser excluídos.