reCAPTCHA : un système anti-spam qui numérise les livres

Vous avez sûrement déja croisé le système de vérification humaine reCAPTCHA qui permet de lutter contre le spam, en retapant 2 mots écrits dans un formulaire. Mais saviez-vous que ce système permet de manière astucieuse de numériser des milliers de livres papiers grâce à votre propre contribution ?

En effet, sur les 2 mots que vous tapez, un seul est connu et vérifié par reCAPTCHA : l'autre n'est pas connu, mais en le proposant à des centaines d'internautes différents et en ayant toujours la même réponse de leur part, le système sait alors que l'association entre ce qui a été scanné et ce qui a été tapé par les internautes est correct. Et voila comment on arrive à numériser des milliers d'ouvrages avec un système anti-spam ! L'OCR (système de reconnaissance des caractères automatique par informatique) n'est aujourd'hui pas assez au point pour être suffisamment fiable. En utilisant le cerveau humain, on arrive à de biens meilleurs résultats. Le slogan de la société (qui a été rachetée par Google) incarne bien le fonctionnement de ce système : "stop spam, read books".


Commentaires (50)

  • Zdouble

    Zdouble

    Super l'info !

  • kyubidan

    kyubidan

    C'est la folie et vraiment très intelligent !

  • ioangauss

    ioangauss

    C'est super

  • Mythys

    Mythys

    Etonnant, fallait vraiment y penser.

  • Giorgio

    Giorgio

    J ai pas compris le principe du deuxième mot...

  • bilal

    bilal

    On est toute une armée de cobaye informatique! ))

  • Moomin

    Moomin

    Ça a l'air intéressant mais j'ai rien compris...

  • outadoc

    outadoc

    Moomin: en fait, chacun de nous apprend à la machine à reconnaitre des lettres manuscrites. Comme ça, les manuscrits peuvent être numérisés de façon plus efficace.

  • mondix

    mondix

    Et c'est quoi ce premier mots

  • blacksheep38

    blacksheep38

    Ce que je trouve énorme... C qu'il y a un mec qui a eu l'idée de ça. Y'a vraiment des mecs Qui se creusent les méninges...

  • frenz

    frenz

    Ce quil me fait rire cest que ce systeme est concut a la base pour etre sur qune personne est sur le pc alors que pleins de logiciels automatises decrypte et inscrivent ces lettres a notre place de nos jours. Donc en resultat cest linformatique qui verifie lexactitudes des lettres pour ces livres que linformatique a numerise auparavant. Ou va le monde ...

  • fancat

    fancat

    Bien que j'ai lu cette annecdote et ses commentaires plusieurs fois je n'ai rien compris !

  • chnoub

    chnoub

    On devrait demander a être payé! Non mais on bosse gratis a l'insue de notre plein gré? Et les bouquins scannés, ils sont pas payant quand même?

  • ciya

    ciya

    G strictement rien compris!! Pourtant g relu deux fois

  • vb73

    vb73

    C'est simple :
    Des sociétés comme Google numérisent de nombreux livres de manière automatisés, et utilisent des logiciels OCR (Reconnaissance de caractères) pour améliorer la lisibilité des ebook (livres électroniques).

    Malheureusement, les OCR ne reconnaissent pas forcément tous les mots (dans des vieux livres par exemple), et un humain est nécessaire pour lire et corriger le mot.

    L'idée qu'a eu cette société (effectivement rachetée par Google par la suite) a été de se dire : ça prendrait des centaines d'heures pour une seule personne pour relire tous ces mots, alors qu'il y a des millions d'internautes qui utilisent des captchas (ces codes anti-robots), et qui ne mettent que quelques secondes à les déchiffrer.

    Sur le captcha, il y a 2 mots affichés : un est déjà connu, et l'autre peut être un mot non reconnu par l'OCR. Ainsi, l'internaute va entrer les 2 mots, et le système va valider ou non en se basant sur le mot qu'il connaît.
    Ensuite, il stocke le 2ème mot, et le compare à d'autres réponses d'internautes (plusieurs centaines probablement). Il peut comme cela à trouver le bon mot que le logiciel était incapable de reconnaître de lui-même.
    Et c'est comme ça qu'il est possible de numériser des milliers de livres sans avoir à payer une équipe pour lire les mots non reconnus.

  • SolidSnake

    SolidSnake

    Trop bien.

  • kaiiou

    kaiiou

    Vb 73, merci pour tes explications car c'était pas très clair en effet. (je n'avais pas saisit qu'il s'agissait de la succession de lettres que tu dois reconnaitre à la fin d'un formulaire Internet... En effet parfois ça forme un mot ! Mais pas toujours cependant.)

  • Gorus

    Gorus

    Voilà qui explique pourquoi parfois j'ai remarqué parfois qu'en écrivant n'importe quoi ou en faisant une faute de frappe sur le deuxième mot ça marche quand même...
    En tout cas super bien vu comme système.

  • Soubi

    Soubi

    Cela forme pratiquement toujours un mot, seulement considère le fait qu'il s'agit souvent d'ouvrages manuscrits anciens, et que les langues évoluent...

  • triton35

    triton35

    C en kele langue ????


Ajouter un commentaire

Vous n'êtes pas connecté.
Pour poster un commentaire, vous devez être connecté à un compte Se Coucher Moins Bête.
La création de compte est gratuite et permet de commenter, modérer, mettre en favoris et suivre les commentaires des anecdotes. Si vous avez déjà un compte, cliquez ici pour vous y connecter, sinon vous pouvez créer un compte en quelques secondes en cliquant ici.

Pour
De

L'email de partage contiendra automatiquement un lien vers l'anecdote

Fermer la fenêtre

|