reCAPTCHA : un système anti-spam qui numérise les livres

Vous avez sûrement déja croisé le système de vérification humaine reCAPTCHA qui permet de lutter contre le spam, en retapant 2 mots écrits dans un formulaire. Mais saviez-vous que ce système permet de manière astucieuse de numériser des milliers de livres papiers grâce à votre propre contribution ?

En effet, sur les 2 mots que vous tapez, un seul est connu et vérifié par reCAPTCHA : l'autre n'est pas connu, mais en le proposant à des centaines d'internautes différents et en ayant toujours la même réponse de leur part, le système sait alors que l'association entre ce qui a été scanné et ce qui a été tapé par les internautes est correct. Et voila comment on arrive à numériser des milliers d'ouvrages avec un système anti-spam !

L'OCR (système de reconnaissance des caractères automatique par informatique) n'est aujourd'hui pas assez au point pour être suffisamment fiable. En utilisant le cerveau humain, on arrive à de biens meilleurs résultats.
Le slogan de la société (qui a été rachetée par Google) incarne bien le fonctionnement de ce système : "stop spam, read books".

Commentaires

Super l'info !
# Par Zdouble, le 25/03/2010 à 0h16
C'est la folie et vraiment très intelligent !
# Par Kyubidan, le 25/03/2010 à 8h41
C'est super
# Par Ioangauss, le 27/03/2010 à 14h12
Etonnant, fallait vraiment y penser.
# Par Mythys, le 28/03/2010 à 1h18
J ai pas compris le principe du deuxième mot...
# Par Giorgio, le 01/04/2010 à 9h13
On est toute une armée de cobaye informatique! :o))
# Par Bilal, le 13/04/2010 à 11h01
Ça a l'air intéressant mais j'ai rien compris...
# Par Moomin, le 14/04/2010 à 23h35
Moomin: en fait, chacun de nous apprend à la machine à reconnaitre des lettres manuscrites. Comme ça, les manuscrits peuvent être numérisés de façon plus efficace.
# Par Outadoc, le 15/04/2010 à 23h14
Et c'est quoi ce premier mots
# Par Mondix, le 18/04/2010 à 9h39
Ce que je trouve énorme... C qu'il y a un mec qui a eu l'idée de ça. Y'a vraiment des mecs Qui se creusent les méninges...
# Par Blacksheep38, le 25/04/2010 à 23h59
Ce quil me fait rire cest que ce systeme est concut a la base pour etre sur qune personne est sur le pc alors que pleins de logiciels automatises decrypte et inscrivent ces lettres a notre place de nos jours. Donc en resultat cest linformatique qui verifie lexactitudes des lettres pour ces livres que linformatique a numerise auparavant. Ou va le monde ...
# Par Frenz, le 30/04/2010 à 2h12
Bien que j'ai lu cette annecdote et ses commentaires plusieurs fois je n'ai rien compris !
# Par Fancat, le 20/05/2010 à 20h18
On devrait demander a être payé! Non mais on bosse gratis a l'insue de notre plein gré? Et les bouquins scannés, ils sont pas payant quand même? :)
# Par Chnoub, le 26/05/2010 à 1h42
G strictement rien compris!! Pourtant g relu deux fois
# Par Ciya, le 03/06/2010 à 22h27
C'est simple :
Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.
# Par Vb73, le 09/06/2010 à 20h36
Trop bien.
# Par SolidSnake, le 21/06/2010 à 21h57
Vb 73, merci pour tes explications car c'était pas très clair en effet. (je n'avais pas saisit qu'il s'agissait de la succession de lettres que tu dois reconnaitre à la fin d'un formulaire Internet... En effet parfois ça forme un mot ! Mais pas toujours cependant.)
# Par Kaiiou, le 22/06/2010 à 2h39
Voilà qui explique pourquoi parfois j'ai remarqué parfois qu'en écrivant n'importe quoi ou en faisant une faute de frappe sur le deuxième mot ça marche quand même...
En tout cas super bien vu comme système.
# Par Gorus, le 24/06/2010 à 23h11
Cela forme pratiquement toujours un mot, seulement considère le fait qu'il s'agit souvent d'ouvrages manuscrits anciens, et que les langues évoluent...
# Par Soubi, le 04/07/2010 à 23h21
C en kele langue ????
# Par Triton35, le 06/07/2010 à 20h14
Mais si c'est l'utilisateur qui fait le travail de conversion, comment savoir que ça correspond bien? C'est étrange comme histoire...
# Par Casimir, le 09/07/2010 à 23h26
En fait je n'avais pas tout lu. Très intéressant alors.
# Par Casimir, le 09/07/2010 à 23h28
Je trouve ce système génial.
Mais j'ai une question, si le système ne connais pas le 2ème mot, comment fait il pour savoir qu'on l'a bien taper?
# Par Ashley, le 15/07/2010 à 0h40
Il sait pas mais comme il sait qu'on a déjà bien écrit le premier il peut se dire que c'est bon
# Par IM@x 3D, le 24/07/2010 à 23h59
Je ne savais pas pour les livres, bien que j'avais remarqué la slogan mais j'ai une autre info, le mot inconnu du système est toujours le 1ere, c'est pour cela qu'il suffit de taper le 2ème mot pour que votre post (message ou autre) soit envoyé ;)
# Par Blank, le 08/08/2010 à 21h27
Ce n'est pas totalement vrai ... Certaines reconnaissances ne sont pas dans ce but !
# Par Killthief, le 31/08/2010 à 12h09

Ajouter un commentaire

Pour écrire un commentaire, vous devez être inscrit et connecté sur notre site : L’inscription prend 10 secondes et est entièrement gratuite !
Je m'inscris. Etre membre vous permet aussi de voter sur l’authenticité des anecdotes, et disposer d’un espace pour retrouver vos anecdotes préférées.