mamlas (mamlas) wrote in eto_fake,
mamlas
mamlas
eto_fake

Как работает reCAPTCHA

Оригинал взят у [info]vgil в Как работает reCAPTCHA
Оригинал взят у [info]npokpyct

Прочитал недавно на хабре статью, которая буквально поразила меня.

Во-первых, стало понятно почему иногда выплывают капчи типа такой.

recaptcha

Во-вторых, это одна из статей заработка корпорации Google. Деньги делаются из воздуха. И это гениально! Наверное, каждый человек в Интернете когда-нибудь да поработал на Google таким образом.
Начнём с начала. По сути, reCAPTCHA выполняет ту же функцию, которую выполняют другие капчи. Суть проста, пользователь вводит предложенный текст и тем самым доказывает, что он не робот. Главным отличием от других систем является то, что reCAPTCHA не только защищает сайт от спамеров, но еще и выполняет другую, достаточно интересную функцию. Что это за функция?

Как вы, наверное, заметили, reCAPTCHA предлагает ввести два слова, что практически не встречается у других капч. Суть в том, что пользователь при вводе этих слов не только доказывает, что он не робот, но еще и помогает распознавать старые книги и газеты.
Принцип работы прост:
Допустим, есть какая-то книга, которая сохранилась в малом количестве экземпляров, при этом все они в плохом состоянии. Один экземпляр в отсканированном виде попал в руки Google (владелец reCAPTCHA). Что с ним делать? Правильно, оцифровать. Как цифровать? Цифровать, используя системы распознавания символов (OCR). Но, как многим известно, эти системы очень часто грешат многочисленными ошибками в выданном результате (многие, наверное, пользовались программой FineReader). Вручную перебирать весь текст на предмет ошибок — слишком дорогое удовольствие. И вот, на помощь приходит reCAPTCHA. Одно слово в изображении распозналось системой OCR правильно, а вот второе никак нет. Второе слово — за пользователем, именно то, что он введет будет использовано в качестве замены ошибочному варианту, предложенным OCR. Наверняка, сейчас некоторые усмехнутся. Да, я знаю про то, что фактически вместо второго слова можно ввести что угодно. Но каждое непонятное для OCR слово reCAPTCHA показывает пользователям сотни, а то и тысячи раз (при цифре в 200 миллионов генераций в день это очень мало), и в конечном итоге правильным считается тот вариант, который пользователи вводили чаще всего.
От скучного текста перейдем к иллюстрациям:

recaptcha

Вот так выглядит отсканированный текст. Качество, можно сказать, не на высоте, но давайте взглянем на результат работы OCR:

recaptcha

Красным выделены ошибки. Не правда ли, их слишком много? А теперь посмотрим, что же будет результатом работы reCAPTCHA:

recaptcha

Не надо быть семи пядей во лбу, что бы увидеть разницу между OCR и дуэтом OCR + reCAPTCHA. Оцифровка получилась 100% безошибочной.
Разумеется, это что-то вроде идеальной ситуации, где все складывается так, как задумывалось создателями reCAPTCHA. Но, наверняка, многие из вас сталкивались с абсолютно нечитаемыми словами, предлагаемыми для ввода. Проблема в том, что некоторые книги/газеты сохранились настолько плохо, что порой и вручную они распознаются отвратительно. Вот пример:

recaptcha

Изображение отвратительного качества. Посмотрим, что тут сможет сделать OCR…

recaptcha

… а ничего. Ошибки не подсвечены потому, что все это — одна большая ошибка.

recaptcha

Зато силами reCAPTCHA результат становится вполне себе читаемым, хоть и не безошибочным. Именно таким образом пользователи помогают оцифровывать книжки средствами reCAPTCHA.
Вкратце: изображение, генерируемое reCAPTCHA, состоит из двух отсканированных слов. Одно уже заведомо известно системе, насчет второго же есть сомнения. Именно это второе слово и есть объект для распознавания силами пользователей. Грубо говоря, интерфейс reCAPTCHA мог бы выглядеть и вот так:

recaptcha
Tags: грамотность, интернет и сети, секреты и тайны, техника и технологии
Subscribe

promo eto_fake march 28, 2012 00:37 7
Buy for 10 tokens
Large Visitor Globe Поиск по сообществу по комментариям
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 2 comments