Tout le monde ou presque sait ce qu'est un captcha : c'est une image avec une inscription que seule un humain peut lire. Le but est d 'utiliser un captcha pour limiter l'accès aux seuls humains. On les retrouve sur les blogs, forums et autres wiki, là où les robots spammeurs sont susceptibles d'agir. cela permet aussi d'évier aux utilisateurs d'utiliser de scripts automatisés comme par exemple sur MegaUpload.

captcha

Selon les CMS, système de blog ou de forums, le captcha et soit un script propre au système soit fourni par la société reCaptcha qui délivre ses captchas à plus de 100 000 sites web (dont Wikipédia). Le secret de reCaptcha est de trouver ses sources en scannant des journaux et des vieux livres : la qualité du texte n'étant pas la meilleure sur ces supports papier, on obtient du texte très dur à déchiffrer.

Or cette société a développé un système de reconnaissance optique OCR particulièrement efficace pour ce type de support, et c'est ce qui intéresse Google. En effet ce dernier propose Google Books qui permet d'accéder à des millions de livres scannés puis retranscris en texte (pour pouvoir être indexé). Et c'est ce qui justifie le rachat par Google qui obtient alors les précieux algorithmes d'OCR de reCaptcha (ainsi que la team de développement) et va ainsi pouvoir les réutiliser pour son compte.