Aracruz, 17 de Dezembro de 2017
CATEGORIA SEÇÃO

CAPTCHA, o que é e para que serve?

Embora o seu uso às veses se torne chato e indesejável, este recurso é essencial na web e sua proposta faz todo o sentido quando o assunto é segurança.

O PROBLEMA: Spammers

Serviços de email grátis como Google, Yahoo! e Microsoft estavam sofrendo ataques de hackers/spammers que haviam criado programas capazes de obter milhões de contas de email todos os dias. Por que os spammers precisavam de tantos emails? Porque os serviços de email permitiam que usuários enviassem somente um número específico de emails por dia (Yahoo permitira 100 envios de email por dia), então para que a tática de spam pudesse funcionar efetivamente, os spammers precisavam de um número gigantesco de endereços de email.

A SOLUÇÃO: CAPTCHA

Desenvolver um programa que protege os websites contra os robôs por meio da aplicação de um teste que os humanos podem passar, mas os robôs não. Por exemplo, humanos podem ler textos distorcidos como estes acima, mas os programas de computador não.

Em linhas gerais, o CAPTCHA serve como uma ferramenta auxiliar para evitar spams ou mensagens disparadas por outros computadores ou robôs. Em outras palavras, ele evita que softwares robôs criem várias contas em série automaticamente, envia mensagens de spam, burlem páginas que precisam de confirmação, congestione a base de dados, entre outras ameaças.

 

CURIOSIDADE

Sabia que você está ajudando a digitalizar livros antigos?

reCAPTCHA é um serviço grátis do CAPTCHA que ajuda a digitalizar livros, jornais e shows de rádio antigos.

Como isso funciona?

Digitalizar livros consiste do processo de tirar fotos de páginas do livro e em seguida usar OCR (reconhecimento óptico de caracteres) para descobrir o que as palavras são. Entretanto, em textos antigos, o OCR é bastante impreciso – para os livros escritos antes de 1900, OCR perde cerca de 30% das palavras.

Exemplo de problema com OCR

O reCAPTCHA melhora o processo de digitalização de livros enviando para a web palavras que os humanos são capazes de decifrar, mas que não conseguem ser lidas por computadores na forma de CAPTCHAs. Cada palavra que não pode ser lida corretamente por OCR é colocada em uma imagem e usada como CAPTCHA. Isso é possível porque a maioria dos programas emite um alerta quando uma palavra não pôde ser lida corretamente.

Mas se um computador não pode ler tal CAPTCHA, como o sistema é capaz de conhecer a resposta correta?

A resposta: o reCAPTCHA oferece aos usuários duas palavras distorcidas. O sistema sabe o que uma delas é – se você identificá-la corretamente, ele assume que você provavelmente está respondendo a segunda (a ordem é aleatória) usando o melhor da sua capacidade e supõe que a sua resposta seja correta também para a nova palavra. O sistema então oferece essa nova imagem para um grupo de outras pessoas para determinar, com maior precisão, se a resposta original estava correta. Quando este grupo identifica a palavra desconhecida da mesma forma, é muito provável que o reconhecimento seja exato.

As duas palavras do reCAPTCHAs são tão velozes quanto digitar seqüências aleatórias de 6-8 caracteres, de modo que von Ahn não está nos fazer trabalhar mais.

É assim que os textos digitalizados vão sendo corrigidos, palavra por palavra. A maior parte desses textos são provenientes dos arquivos do New York Times e do projeto de digitalização do Google. E o Google gostou da tecnologia que acabou comprando o reCAPTCHA.