Sabia que tem ajudado na digitalização de livros antigos?
reCAPTCHA - A evolução do projecto CAPTCHA
Todos os que usam a Internet já usaram certamente CAPTCHAs. Esta funcionalidade permite garantir a autenticidade de um utilizador (garantindo que é um utilizador e não uma máquina/programa de computador), perante uma página/serviço Web.
Luis von Ahn, um dos criadores dos captchas, apresentou recentemente no Ted.com a evolução do projecto captcha à qual foi dado o nome de reCAPTCHA. Luis von Ahn referiu que o tempo que um utilizador gasta a interpretar uma CAPTCHA não é usado para qualquer finalidade. Assim, porque não aproveitar esse tempo e conceito associado ao projecto CAPTCHA para digitalizar livros?
Veja o vídeo da apresentação do Luis von Ahn intitulada Massive-scale online Collaboration; e leia a tradução que preparamos em português:
Quantos de vocês já tiveram de preencher um formulário na Web onde vos pediram para ler uma sequência distorcida de caracteres como esta? Quantos de vocês acharam isto irritante? OK, espetacular, fui eu que inventei isso...ou pelo menos fui um dos que inventou isso. A esta coisa chama-se CAPTCHA.
E está ali para certificar que quem está a preencher o formulário é sem duvida um humano e não um programa informático desenvolvido para submeter o formulário milhões e milhões de vezes.
Isto funciona porque os humanos, pelo menos os humanos sem limitações visuais, não têm qualquer problema em ler estes caracteres distorcidos, enquanto os programas informáticos simplesmente ainda não o conseguem fazer tão bem. Por exemplo, no caso do Ticketmaster, a razão pela qual temos de escrever caracteres distorcidos é para prevenir os "burlões" de escrever um software que consiga comprar milhões de bilhetes...dois de cada vez, etc, etc.
Os CAPCTHAs são usados em toda a Internet. E como eles são usados com tanta frequência, muitas vezes, a sequência de caracteres aleatórios que é mostrada ao utilizador, não é muito "feliz". Aqui está um exemplo da página de registo do Yahoo. Os caracteres aleatórios mostrados ao utilizador foram W A I T, que obviamente formam uma palavra. Mas a melhor parte é a mensagem que os serviços da Yahoo receberam cerca de 20 minutos mais tarde.
Texto: "Ajudem-me! Estou a espera há mais de 20 minutos e nada acontece" 🙂
O projecto CAPTCHA foi algo que desenvolvemos aqui na Universidade de Camegie Mellon há cerca de 10 anos e é usado por todo o mundo. Deixem-me falar-vos de um projecto que desenvolvemos posteriormente e que é uma espécie de evolução do CAPTCHA. É um projecto a que chamamos de reCAPTCHA, que é algo que começamos aqui na Camegie Mellon, e que transformamos numa Startup. E, há cerca de um ano e meio, a Google comprou esta empresa.
Este projecto começou através da seguinte percepção: Aproximadamente 200 milhões de CAPTACHs são escritos todos os dias por pessoas em todo o mundo. Quando escrevemos um CAPCTHA, desperdiçamos cerca de 10 segundos do nosso tempo e se multiplicarmos isso por 200 milhões, percebemos que a humanidade, no seu todo, gasta cerca de 500.000 horas todos os dias a escrever CAPTCHAS irritantes. No entanto, não nos podemos livrar dos CAPTCHAS pois parte da segurança da Web depende deles!
Existe alguma forma de reaproveitar este esforço para algo que seja com para a humanidade?
Reparem no seguinte: Quando escrevem o CAPTCHA, durante esse 10 segundos, o vosso cérebro está a fazer algo fascinante. O vosso cérebro está a fazer algo que os computadores ainda não conseguem fazer!
Como é que conseguimos que os 10 segundos "desperdiçados" se transformem em algo útil?De outra perspectiva, existe um problema gigantesco que não conseguimos que os computadores resolvam, no entanto podemos dividi-lo em períodos de 10 segundos, de tal forma que, sempre que alguém escreve um CAPTCHA se resolva uma pequena parte deste problema?
E a resposta é "sim!" e é isso que estamos a fazer agora. Por isso o que podem não saber é que hoje em dia, enquanto escrevem um CAPTCHA, estão, não só a "autenticar-se" como humanos, mas também estão a ajudar a digitalizar livros.
Escrever CAPTCHAS estão a ajudar a escrever livros. Como funciona?
Existem imensos projectos por aí a tentar digitalizar livros. A Google tem um...O Internet Archive tem outro, A Amazon agora com o Kindle...etc.
Basicamente a forma como funciona é: começa-se por pegar num livro velho e depois digitalizamo-lo. Digitalizar um livro é como tirar uma fotografia digital a cada página do livro. Isto é, uma imagem com texto por cada página do livro. O próximo passo no processo é o computador decifrar todas as palavras da imagem, usando para isso uma tecnologia denominada de OCR...o problema é que o OCR não é perfeito!...especialmente para livros mais velhos onde a tinta está a falhar e as páginas já estão amarelas, fazendo com que o OCR não consiga reconhecer muitas palavras. Por exemplo, para livros escritos há mais de 50 anos, o computador não consegue reconhecer cerca de 30% das palavras.
O que se está a fazer agora é extrair todas as palavras que o computador não consegue reconhecer e fazer com que as pessoas leiam por nós, enquanto escrevem um CAPTCHA nos vários serviços da Internet.
Por isso, da próxima vez que escrevem um CAPTCHA, as palavras que escreverem, são de facto palavras que saem de livros que estão a ser digitalizados e que o computador não consegue reconhecer. A razão por hoje em dia existirem duas palavras no CAPTCHA é porque uma das palavras é do livro, a qual o sistema não sabe qual é, e depois uma segunda palavra para o qual o sistema conhece a resposta. O sistema não diz qual das palavras é a do livro e por isso, caso acertem na palavra que ele valida, então ele assume que a palavra foi escrita por um humano.
Se repetirmos este processo, por exemplo, por 10 pessoas diferentes, e se todas as pessoas concordarem sobre qual é a nova palavra, então temos mais uma palavra digitalizada correctamente. É assim que o nosso sistema funciona !!!
O Twitter, Facebook e cerca de 350.000 outros sites, já estão a usar o reCAPTCHA. Atualmente, com o número de sites que estão a usar o novo reCAPTCHA, o numero de palavras obtidas diariamente é realmente grande. Por serem dadas duas palavras, acontecem também situações "engraçadas". Como as palavras são fornecidas de forma aleatórias, podem aparecer coisas como "mau Cristão"...não tem nada de mal, nem sequer queremos insultar ninguém...são coisas do sistema! 🙂
750,000,00 (cerca de 10% da população mundial), é o numero de pessoas que já ajudaram a digitalizar, pelo menos uma vez, um livro através do sistema reCAPTCHA, aumentando assim o "conhecimento humano" digitalizado.
Como é que conseguimos que 100 milhões de pessoas, gratuitamente, traduzam a Web para as principais linguas? Concentrem-se a partir ddo minuto 9h15 o objectivo do novo projecto que se chama Duolingo e que brevemente apresentaremos no Pplware.
Sabia que ajudava na digitalização de livros antigos. O que acha desta ideia?
Agradecimento ao Francisco, pela sugestão do tema!
Este artigo tem mais de um ano
É uma ideia altamente eficiente, obviamente!
Ajudar sem esforço extra.
Num mar de banalidades, trivialidades e consumismo que a internet consegue ser, é bom vermos algo realmente construtivo e de valor ser feito…
O pessoal do reCAPTCHA está de parabéns!…
E com isto estamos mais uma vez a fazer com que a google predomine no mercado da internet, sem o nosso conhecimento.
/inserir aqui meme de facepalm
Impressive ! 😀
Realmente a ideia é fantástica!
Mas para deitar achas para a fogueira…
Quanto vou pagar por um livro que ajudei a digitalizar?
🙂
Bem, pelo que está numa das imagens acima, leio que “Google Acquires reCAPTCHA”.
Sendo assim, creio que o valor que vais pagar quando o livro estiver digitalizado e no repositório da google é.. 0!;)
Nunca mais vou reclamar dos Captchas xD
Não sabia, muito bom.
Mas deixo uma crítica ao facto de, pelo menos que me lembre, ser só palavras em inglês. Muito conhecimento, principalmente livros antigos estão escritos nas mais variadas línguas.
Ideia genial!! nunca tinha pensado nisto!
E esta hein….
Genial!!!!!!!!
Inicialmente colocava as duas palavras, depois descobri que não era necessário e passei só para uma. Mas aqui há uns meses atras li este assunto num blog de tecnologia qq e voltei a colocar as duas palavras e dar o meu contributo
Hum ideia fantástica, mas à imagem dos Captchas não está já associado a um respectivo código/texto dactilografado? Ou seja, o conteúdo da imagem, não está já digitado sob a forma de texto que permite a comparação entre o que digitamos e o arquivo associado à imagem? Desculpem a ignorância de estiver a dizer uma barbaridade.
Uma das palavras sim uma das palavras é conhecida… o que permite confirmar se és humadno 😛
Mas a outra é desconhecida… esta ate a podes errar que o sistema n tem capacidade para perceber…
😉
Ah já percebi obrigado pela partilha 😉 Agora já faz sentido.
É por isso que a palavra só fica OK para ser digitalizada após varias validações corretas por parte dos utilizadores, como diz no artigo:
“Se repetirmos este processo, por exemplo, por 10 pessoas diferentes, e se todas as pessoas concordarem sobre qual é a nova palavra, então temos mais uma palavra digitalizada correctamente.”
correcção: “…Desculpem a ignorância se estiver a dizer uma barbaridade.”
Mais uma ideia impressionante que o google implementa. Também conheci este projecto há pouco tempo, acredito que se houver bastante adesão no projecto Duolingo, podemos vir a ter acesso ao (Eu sei português e quero aprender alemão). Actualmente para aprender alemão, tem que se saber inglês ou espanhol neste site. Mas isso será matéria, como o Pedro disse para um próximo artigo.
Parabéns pelo artigo Pedro.
Obrigado Francisco pela sugestão do tema do artigo.
PP
u r welcome
Muito bom este artigo! Eu desconhecia por completo, e como devoradora de livros (infelizmente tenho lido menos), acho que estas ideias são as que fazem falta no mundo.
Ainda agora para o soundcloud as palavras que surgiram foram:
ntradth e 51.2
Penso que para o livro seja entao a 51.2 a não ser se seja um livro ucraniano 😀
Cumprimentos 😉
heheh Pelo que percebi a palavra do livro é sempre a mais fácil de interpretar.
Pedro depende dos livros as palavras dos livros sao sempre as que o OCR nao consegue identificar
Excelente, parabéns pelo artigo Pedro.
Por acaso já sabia que ajudava na digitalização de livros à muito tempo.
Acho é incrédulo como é que tanta gente que por aqui comenta e que está obviamente ligado ao mundo das TI’s não saber o que estava a fazer ao introduzir um CAPTCHA. Ainda por cima isto é algo que fazemos provavelmente todas as semanas, como é que nunca vos despertou curiosidade para pesquisar sobre o assunto?
De qualquer das formas o artigo é muito bom. Parabéns.
Eu faço todos os dias e nunca soube dessa “2ª finalidade”.
E também posso por a questão de outra forma, não haverá coisas mais importantes que se deva saber “no mundo das TI” ?
E quem já o sabia, tem mais competências no “mundo das TI” que os restantes?
Quantas ideias relacionadas com as TI são postas em prática diaramente? Alguém as conhece todas?
Em nome dos ignorantes, agradeço a informação.
Claro que há coisas mais importantes, concordo plenamente. No entanto acho estranho porque já surgiram inúmeros artigos sobre isto no passado (não em português) pelo que pensei que a maioria sabia o que estava a fazer ao digitar um captcha.
Como já referi, apenas demonstrei estranheza por verificar que a maioria desconhecia, esta “2ª finalidade”. Não queria ofender ninguém.
Cumps.
de acordo ctg,o mundo infelizmente está cheio de pessoas q se julgam os maiores. como é o caso do joão
A ideia é excelente, mas serei só eu que não suporto os CAPTCHA? Por vezes há alguns que são simplesmente impossíveis de ser compreendidos e só prejudicam o utilizador.
mesmo
eu escrevo sempre a palavra q e precisa e a outra e sempre nigga
trolololol
Consegues sempre perceber qual é a digitalizacão da palavra obrigatória?
a palavra obrigatória é aquela que é mais fácil de ler 😀
Mas sempre pus as duas, for the sake of knowledge.
Tenho uma questão. Se nós estamos a ajudar na digitalização de duas palavras em cada captcha, como é que ele sabe que escrevi o que está realmente lá se supostamente sou eu que as vou digitalizar?
A resposta está no artigo.
“Por isso, da próxima vez que escrevem um CAPTCHA, as palavras que escreverem, são de facto palavras que saem de livros que estão a ser digitalizados e que o computador não consegue reconhecer. A razão por hoje em dia existirem duas palavras no CAPTCHA é porque uma das palavras é do livro, a qual o sistema não sabe qual é, e depois uma segunda palavra para o qual o sistema conhece a resposta. O sistema não diz qual das palavras é a do livro e por isso, caso acertem na palavra que ele valida, então ele assume que a palavra foi escrita por um humano.
Se repetirmos este processo, por exemplo, por 10 pessoas diferentes, e se todas as pessoas concordarem sobre qual é a nova palavra, então temos mais uma palavra digitalizada correctamente. É assim que o nosso sistema funciona !!!”
Ah são precisas 10 pessoas para confirmar! Ok 😀
Muito bom sistema!
Não são as duas é apenas uma e só é aceite a nova palavra quando um determinado número de pessoas escreve a mesma palavra.
São apresentadas duas palavras, uma o computador conhece, a outra é desconhecida e é essa que é a contribuição para a digitalização do livro.
como diz no artigo um o pc não tem como saber se é veridica ou não a outra sim ele tem a imagem associada a uma palavra se errares essa ele recusa o pedido que fizeres
mas saber qual é a que o pc sabe podes falhar pelo menos 50% das vezes
mais vale dar uma pequena ajudita e fazer bem as coisas
Não vejo qual o interesse de saber qual das duas é a conhecida ou a desconhecida. Meto sempre as duas.
FANTASTICO!!
ajudei a mudar o mundo! sinto-me mais util. 😛
não fazia a minima, muito bom
Fantástico! sem dúvida… mas há tanta gente em todo mundo a precisar de trabalhar para comer… E com tanto dinheiro que o mundo digital dá… não sei se não considero isto uma exploração sem autorização
Já sabia disto. Acho a ideia muito boa e tenho colaborado desde que descobri para que servia a 2ª palavra, mas agora a dificuldade da palavra de verificação está terrível. Acho que estão a abusar bué. Quando se tem de escrever o captcha 3-4 vezes pa acertar perde-se a boa vontade. As queixas de exploração tb têm alguma razão mas ao menos é trabalho útil.
Isso soa como uma desculpa para as pessoas pararem de reclamar desses tumores que tanto irritam.
Eu também acho que as pessoas reclamam de qualquer coisa, mas quando devem reclamar dos seus direitos, encolhem-se, ficam com medo e não fazem nada, eheh
Cumprimentos
a meio do vídeo pensei: então se o computador não sabe o que a palavra quer dizer como é que vai saber que os utilizadores estão a dizer a verdade?
depois vi que era tão simples com 2 palavras e pensei sou mesmo burro lol
Tal como eu e provavelmente 98% das pessoas 🙂
Dos restantes, 1% são iluminados que perceberam logo como fazer a “despistagem” e os outros 1% são os que nem estavam a entender nada, portanto nem tiveram essa dúvida xD
Os capchas tem sido uma das maiores barreiras á acessibilidade e usabilidade de um site.
Eu abomino Capchas
Cumprimentos
César Oliveira
http://www.profissionalweb.net
Estive ainda com mais atenção quando falaram do duolingo, realmente é uma solução muito boa mas… o portugues (uma das linguas pouco traduzidas na internet) continua a ser posta de lado… no site apenas surge Ingles, Alemão, Espanhol e Francês…
@Angelo Brito
Agora já surge o Português 😀
Normalmente os CAPTCHAs dão para escrever sem acentos, nos livros digitais, também irá ficar sem acentos??
secalhar essa é a palavra que o captchas conhece, a outra é a que tu identificas-te
Impressionante como ideias geniais podem ser tão simples!
O projecto duolingo mencionado no vídeo também é bastante promissor!
Pois é, eu não quero ser crítico pq tenho até tendência de ser fã de todas as ideias inteligentes. Então sou fã de mais esta, como o marketing consegue pegar numa coca cola, integrá-la num marketing da felicidade q leva até a esquecer o quão mal esta faz à saúde.
Aqui é igual, um marketing muito bonitinho para a tecnologia mais irritante da internet!
Mas, está muito boa a ideia e claro, o marketing também!