Daily Archives: 25 May 2007

reCAPTCHA – невидимите ресурси

Всяко действие днес носи със себе си последствията на един цял нов свят, утрешния. Има толкова много неща, които наричаме “ежедневни”, “рутинни” – все неважни неща, подробности. Които стават пречки, ако им се обърне внимание. Но защо? Може би истински ценното действие е откриването на светоизграждащата отговорност в най-малкото и ежедневно нещо?

Всеки ден из сайтовете се попълват над 60 милиона “captcha”, изписване с букви и цифри на изрисувани знаци. Често се ползва като защита от нежелани коментари в блоговете, или пък при регистрацията в разни търговски портали. Толкова е просто, нали – нарисувана е думичката, ти трябва да я напишеш с букви от клавиатурата, за да докажеш, че не си някоя тъпа програма и можеш да четеш и смяташ, човек си.

Над 60 милиона пъти дневно хората доброволно цифровизират данните от изображения. Средно по десет секунди – това прави 150 000 работни часа дневно. И трудът им отива нахалост.

Идеята “reCAPTCHA” е този ресурс да се използва. С участието в инициативата хората помагат да се разчитат правилно сканирани стари книги от подпроекти на Internet Archive.

Много често при сканиране на книги се получава лош или нетипичен графичен резултат и последващото оптично разпознаване е неправилно, неуспешно. Компютрите не винаги могат да OCR-нат целия текст – това знае всеки, който поне веднъж е опитвал да сканира и разпознава текст. Човешката намеса е неизбежна, дори и да е за сравнително малки редакции.

Проектът “reCAPTCHA” взема такива неразпознати думички от сканираните за Интернет-архива книги и ги изпраща на съответния потребителски сайт, където работи приставка за reCAPTCHA. Непознатата дума се изпраща в комбинация с вече разпозната такава – така се гарантира в голяма степен, че човек, а не спам-машина ще въведе решението и то ще го въведе правилно.

Има вече налични приставки за WordPress, MediaWiki и phpBB. Също така е публикувано и API за тези, които искат сами да си внедрят поддръжката. Взех леко да завиждам на хората с WordPress – все още няма за Drupal.

Някои идеи са очарователни с простотата и логичността си. И все си казваме “е как никой не се е сетил досега”.

Без спам в сайта ми

След като дълго си налагах да търпя по стотината спам trackback-а на ден, реших да подходя по-грубо. От днес тук работи Bad behavior – надявам се да не се отрази на употребата на сайта от истинските читатели, а само да отреже спам-машините. Обратните свързвания са последната пролука, през която се вливаше нечистотията на всякакви нежелани реклами. Заради спама в свързванията те бяха в режим на одобряване. И това не спря досадниците – веднъж седмично губя по около час да прелистя по заглавия и изтрия над хилядата спам-свързвания.

Bad behavior прави серия от проверки на средата, за да прецени дали коментарът или свързването не идва от спам-скрипт. Разбира се, възможни са грешки в тази преценка. Но се надявам тук да ги нямаме.

Официално приставката за Drupal не е обновена нито до версия 5.x, нито до версия 2 на самия Bad behavior. Използвах тази кръпка в drupal.org, за да я покдарам.