Pplware

Sabia que tem ajudado na digitalização de livros antigos?

reCAPTCHA – A evolução do projecto CAPTCHA

Todos os que usam a Internet já usaram certamente CAPTCHAs. Esta funcionalidade permite garantir a autenticidade de um utilizador (garantindo que é um utilizador e não uma máquina/programa de computador), perante uma página/serviço Web.

Luis von Ahn, um dos criadores dos captchas, apresentou recentemente no Ted.com a evolução do projecto captcha à qual foi dado o nome de reCAPTCHA. Luis von Ahn referiu que o tempo que um utilizador gasta a interpretar uma CAPTCHA não é usado para qualquer finalidade. Assim, porque não aproveitar esse tempo e conceito associado ao projecto CAPTCHA para digitalizar livros?

Veja o vídeo da apresentação do Luis von Ahn intitulada Massive-scale online Collaboration; e leia a tradução que preparamos em português:

Luis von Ahn

Quantos de vocês já tiveram de preencher um formulário na Web onde vos pediram para ler uma sequência distorcida de caracteres como esta? Quantos de vocês acharam isto irritante? OK, espetacular, fui eu que inventei isso…ou pelo menos fui um dos que inventou isso. A esta coisa chama-se CAPTCHA.

E está ali para certificar que quem está a preencher o formulário é sem duvida um humano e não um programa informático desenvolvido para submeter o formulário milhões e milhões de vezes.

Isto funciona porque os humanos, pelo menos os humanos sem limitações visuais, não têm qualquer problema em ler estes caracteres distorcidos, enquanto os programas informáticos simplesmente ainda não o conseguem fazer tão bem. Por exemplo, no caso do Ticketmaster, a razão pela qual temos de escrever caracteres distorcidos é para prevenir os “burlões” de escrever um software que consiga comprar milhões de bilhetes…dois de cada vez, etc, etc.

Os CAPCTHAs são usados em toda a Internet. E como eles são usados com tanta frequência, muitas vezes, a sequência de caracteres aleatórios que é mostrada ao utilizador, não é muito “feliz”. Aqui está um exemplo da página de registo do Yahoo. Os caracteres aleatórios mostrados ao utilizador foram W A I T, que obviamente formam uma palavra. Mas a melhor parte é a mensagem que os serviços da Yahoo receberam cerca de 20 minutos mais tarde.

Texto: “Ajudem-me! Estou a espera há mais de 20 minutos e nada acontece” 🙂

O projecto CAPTCHA foi algo que desenvolvemos aqui na Universidade de Camegie Mellon há cerca de 10 anos e é usado por todo o mundo. Deixem-me falar-vos de um projecto que desenvolvemos posteriormente e que é uma espécie de evolução do CAPTCHA. É um projecto a que chamamos de reCAPTCHA, que é algo que começamos aqui na Camegie Mellon, e que transformamos numa Startup. E, há cerca de um ano e meio, a Google comprou esta empresa.

Este projecto começou através da seguinte percepção:  Aproximadamente 200 milhões de CAPTACHs são escritos todos os dias por pessoas em todo o mundo. Quando escrevemos um CAPCTHA, desperdiçamos cerca de 10 segundos do nosso tempo  e se multiplicarmos isso por 200 milhões, percebemos que a humanidade, no seu todo, gasta cerca de 500.000 horas todos os dias a escrever CAPTCHAS irritantes. No entanto, não nos podemos livrar dos CAPTCHAS pois parte da segurança da Web depende deles!

Existe alguma forma de reaproveitar este esforço para algo que seja com para a humanidade?

Reparem no seguinte: Quando escrevem o CAPTCHA, durante esse 10 segundos, o vosso cérebro está a fazer algo fascinante. O vosso cérebro está a fazer algo que os computadores ainda não conseguem fazer!

Como é que conseguimos que os 10 segundos “desperdiçados” se transformem em algo útil?De outra perspectiva, existe um problema gigantesco que não conseguimos que os computadores resolvam, no entanto podemos dividi-lo em períodos de 10 segundos, de tal forma que, sempre que alguém escreve um CAPTCHA se resolva uma pequena parte deste problema?

E a resposta é “sim!” e é isso que estamos a fazer agora. Por isso o que podem não saber é que hoje em dia, enquanto escrevem um CAPTCHA, estão, não só a “autenticar-se” como humanos, mas também estão a ajudar a digitalizar livros.

Escrever CAPTCHAS estão a ajudar a escrever livros. Como funciona?

Existem imensos projectos por aí a tentar digitalizar livros. A Google tem um…O Internet Archive tem outro, A Amazon agora com o Kindle…etc.

Basicamente a forma como funciona é: começa-se por pegar num livro velho e depois digitalizamo-lo. Digitalizar um livro é como tirar uma fotografia digital a cada página do livro. Isto é, uma imagem com texto por cada página do livro. O próximo passo no processo é o computador decifrar todas as palavras da imagem, usando para isso uma tecnologia denominada de OCR…o problema é que o OCR não é perfeito!…especialmente para livros mais velhos onde a tinta está a falhar e as páginas já estão amarelas, fazendo com que o OCR não consiga reconhecer muitas palavras. Por exemplo, para livros escritos há mais de 50 anos, o computador não consegue reconhecer cerca de 30% das palavras.

O que se está a fazer agora é extrair todas as palavras que o computador não consegue reconhecer e fazer com que as pessoas leiam por nós, enquanto escrevem um CAPTCHA nos vários serviços da Internet.

Por isso, da próxima vez que escrevem um CAPTCHA, as palavras que escreverem, são de facto palavras que saem de livros que estão a ser digitalizados e que o computador não consegue reconhecer. A razão por hoje em dia existirem duas palavras no CAPTCHA é porque uma das palavras é do livro, a qual o sistema não sabe qual é, e depois uma segunda palavra para o qual o sistema conhece a resposta. O sistema não diz qual das palavras é a do livro e por isso, caso acertem na palavra que ele valida, então ele assume que a palavra foi escrita por um humano.

Se repetirmos este processo, por exemplo, por 10 pessoas diferentes, e se todas as pessoas concordarem sobre qual é a nova palavra, então temos mais uma palavra digitalizada correctamente. É assim que o nosso sistema funciona !!!

O Twitter, Facebook e cerca de 350.000 outros sites, já estão a usar o reCAPTCHA. Atualmente, com o número de sites que estão a usar o novo reCAPTCHA, o numero de palavras obtidas diariamente é realmente grande.  Por serem dadas duas palavras, acontecem também situações “engraçadas”. Como as palavras são fornecidas de forma aleatórias, podem aparecer coisas como “mau Cristão”…não tem nada de mal, nem sequer queremos insultar ninguém…são coisas do sistema! 🙂

750,000,00 (cerca de 10% da população mundial), é o numero de pessoas que já ajudaram a digitalizar, pelo menos uma vez, um livro através do sistema reCAPTCHA, aumentando assim o “conhecimento humano” digitalizado.

Como é que conseguimos que  100 milhões de pessoas, gratuitamente, traduzam a Web para as principais linguas? Concentrem-se a partir ddo minuto 9h15 o objectivo do novo projecto que se chama Duolingo e que brevemente apresentaremos no Pplware.

Sabia que ajudava na digitalização de livros antigos. O que acha desta ideia?

Agradecimento ao Francisco, pela sugestão do tema!

Exit mobile version