いや、Googleも確かに良い買い物だと思います。それ以上にreCAPTCHAの考え方が合理的というかナイスなんですよ!
皆さんもどこかで見たことのあるCAPTCHA(SPAMに読めないように歪められた文字を表示して人間かbotかを判別するあれ)を提供する会社で、このreCAPTCHAが提供するのは無料で利用することができます。
reCAPTCHA: Stop Spam, Read Books
reCAPTCHAのCAPTCHAサービスでは2つの単語が表示される。どちらも印刷物からスキャンされたものだが、reCAPTCHAが正しいスペリングを把握している単語は1つだけで、もう1つはOCRプログラムで正しく読み取れなかったと警告された単語である。ユーザーはどちらの単語も入力する必要があるものの、詐欺・スパム対策の確認に用いられるのは1つだけ。もう1つはOCRの結果の修正になる。正確を期すために、スペリングが分かっていない単語は複数のユーザーに示し、それらの入力を総合して正しいつづりを判断する。
GoogleがreCAPTCHA買収 - スパム対策機能を印刷物のデジタル化に活用 | ネット | マイコミジャーナル
賢いのは機械が読むことができなかったもう片方も人間に読ませることで正確性を高め、OCRの精度向上に貢献という!!
紙の本は活字での印刷とはいえ、活字のばらつきやインクのにじみ、インクや紙の経年変化、スキャン時の紙面のゆがみなど様々な要因で、必ずしも100%OCRで認識できるわけではない。これまで、読み取れなかった単語は人が視認して訂正を入れていたのだろう。しかし、このreCAPTCHAの仕組みでは、ネットの向こうにいる多数のユーザに、ほんの少しずつ手間をかけてもらうだけで、結果的にたくさんの判別不能だった単語を拾うことにつなげられる。
秋元@サイボウズラボ・プログラマー・ブログ: reCAPTCHA - キャプチャを利用した人力高性能OCR
ホットな言い方をすれば集合知?
Google にしてみれば今話題沸騰中のGoogle ブック検索のOCR精度の向上をしつつも、各種サービスの認証にほぼついて回るCAPTCHAの質の向上でセキュリティ強化に繋がり、美味しい所だらけです。
発想を少し変えるとこんなサービスもできるのかという好例ですね。
感動です;p