a direct publicism site
personal pages of Yasen Pramatarov
StatusNet profile   Diaspora profile   ClaimID profile   LinkedIn profile

internet archive

Смисъл през реклами


Google и другите големи в бизнеса с уеб-търсенето Yahoo и Microsoft (Live) обявиха официалната си подкрепа за т.нар. “canonical URLs”. Това са такива адреси, които са маркирани за идентичност и позволяват до голяма степен да се намали дублираното съдържание. Да, знам — мъгляво и неточно казано е, но не искам да изпадам в подробности. Основното е, че 1) наистина един от големите проблеми на смисловата свързаност на мрежата е точно дублирането и 2) “големите” си дават вид, че си плюят на ръцете да се справят с този проблем.

Това само по себе си е голяма новина. Дали ще отреже спам-сайтовете с бръснач? Дали ще позволи най-накрая проектите за semantic web да минат в най-лявата бърза лента? Не зная. Даже се съмнявам, защото за такава промяна трябва canonical urls да са наистина масови. Нещо повече, дори да е проблем да ги нямаш в сайта си. Малко съм черноглед, защото това изобщо не е първият технически опит за удържане смисловата цялост на уеб-а. Или на Интернет изобщо, не само на уеб. Например и днес има SPF-записи в пощенските сървъри, но ползват ли се масово? Да, преди време същите тези Google включиха в пощенската си услуга Sender Policy Framework. И какво от това? Спамът си продължава, а е-пощата продължава да е едновременно най-уязвимата и най-ползваната услуга. Хората говорят за прехвърляне на тази комуникация към XMPP от години, но няма резултат, защото в XMPP спамът може да се контролира. А спамът е един от най-маститите интернет-бизнеси, включително и у нас. Нещо повече — в уеб може би това е най-сладкият и гарантиран приход.

Интересното в това е, че клиентът винаги може да премахне спама от полезрението си (поне в достатъчна степен), но продължава да има много пари в цялото това занимание… Всъщност точно тези “големи играчи” нямат голяма полза от спирането на спама. То е като с вирусите и антивирусните програми. Има начини да няма вируси, но каква печалба имат тогава антивирусните фирми? Да казваме директно, че точно те в повечето случаи провокират писането или дори пишат въпросните вируси е в обсега на недоказуемите конспиративни теории. И все пак…

Но може би за пореден път получаваме косвено доказателство, че Google се е превърнал в недосегаем монополист в основния му бизнес, рекламите. Никой не се заблуждава, че Google е услуга за поща или онлайн-календар, да речем. И търсачката, която е най-използваемият им продукт (за някои е и единственият), е в някакъв смисъл само инструмент за генериране на печалби от рекламите.

Въпросното доказателство е въвеждането на две неща — canonical urls и профилираните реклами. Два хода, случили се доста скоро един след друг, които показват, че Google може да си позволи да работи срещу “класическия” спам. Но в името на един нов вид спам, спамът, който може пък и да ни харесва, който може дори да ни е и полезен — таргетираната реклама.

Някой ще каже “и какво от това, нали не сме против рекламите, а само против спам-а”. Всъщност е въпрос на гледна точка. Спам-ът е вид реклама. Вярно, наложил се е като нежелана реклама. А и на практика всичките видове явни реклами, включително целият спам и цялата система с контекстни реклами могат да бъдат спирани, отрязвани и неполучавани от клиента.

Но не е ли малко странно, че за свързаността на масовия уеб се работи най-вече през реклами? След като дублирането на съдържание и спамът са неща, които не могат пряко да попречат на смисъла в уеб, макар и да са тежък удар върху категоризирането, не е ли странно, че точно тези проблеми се атакуват? Много по-ценно за автоматичното категоризиране на съдържанието би било, например, работа по проблема със счупените и изтекли линкове, т.нар. “link rot”. За това работят на практика само archive.org и някои от сайтовете за социални отметки (напр. Furl). Е, там няма толкова парички от реклами, колкото в търсачките. Които винаги се ползват и където лесно се смесва търсено съдържание с платени реклами. Особено ако са “таргетирани” и лека-полека ни се харесват.

Canonical URLs са хубаво нещо иначе. Да видим и дали ще се внедрят достатъчно масово в близките години, че да има ефект и някакъв смисъл от тях.



Tags:
16 March, 2009 - 16:33
1 коментар
 

reCAPTCHA - невидимите ресурси


Всяко действие днес носи със себе си последствията на един цял нов свят, утрешния. Има толкова много неща, които наричаме “ежедневни”, “рутинни” - все неважни неща, подробности. Които стават пречки, ако им се обърне внимание. Но защо? Може би истински ценното действие е откриването на светоизграждащата отговорност в най-малкото и ежедневно нещо?

Всеки ден из сайтовете се попълват над 60 милиона “captcha”, изписване с букви и цифри на изрисувани знаци. Често се ползва като защита от нежелани коментари в блоговете, или пък при регистрацията в разни търговски портали. Толкова е просто, нали - нарисувана е думичката, ти трябва да я напишеш с букви от клавиатурата, за да докажеш, че не си някоя тъпа програма и можеш да четеш и смяташ, човек си.

Над 60 милиона пъти дневно хората доброволно цифровизират данните от изображения. Средно по десет секунди - това прави 150 000 работни часа дневно. И трудът им отива нахалост.

Идеята “reCAPTCHA” е този ресурс да се използва. С участието в инициативата хората помагат да се разчитат правилно сканирани стари книги от подпроекти на Internet Archive.

Много често при сканиране на книги се получава лош или нетипичен графичен резултат и последващото оптично разпознаване е неправилно, неуспешно. Компютрите не винаги могат да OCR-нат целия текст - това знае всеки, който поне веднъж е опитвал да сканира и разпознава текст. Човешката намеса е неизбежна, дори и да е за сравнително малки редакции.

Проектът “reCAPTCHA” взема такива неразпознати думички от сканираните за Интернет-архива книги и ги изпраща на съответния потребителски сайт, където работи приставка за reCAPTCHA. Непознатата дума се изпраща в комбинация с вече разпозната такава - така се гарантира в голяма степен, че човек, а не спам-машина ще въведе решението и то ще го въведе правилно.

Има вече налични приставки за WordPress, MediaWiki и phpBB. Също така е публикувано и API за тези, които искат сами да си внедрят поддръжката. Взех леко да завиждам на хората с WordPress - все още няма за Drupal.

Някои идеи са очарователни с простотата и логичността си. И все си казваме “е как никой не се е сетил досега”.



Tags:
25 May, 2007 - 20:33
0 коментара
 

Syndicate content