WordPress и стандартните URI

Някои писаха вече, че излезе WP версия 2.3. Има доста нови неща, но това, което най-вече забелязват хората са вградените поддръжка на етикети (най-накрая, браво, браво, да не повярва човек, че най-накрая вече има етикети в основната инсталация) и автоматична проверка за обновления. Като казвам “най-накрая” за етикетите, имам предвид, че масово хората продължаваха да работят с категории, а не с комбинация от категории и етикети или само с етикети, защото чисто и просто инсталирането на приставка е нещо външно, нещо “приставено”. И доста често се избягва. Имам наум и друго — етикетите, колкото и удобни да са в някои случаи, все пак създават трудност в бложенето. Аз използвам етикети още откакто движех сайта си с Blosxom, но тогава комбинирането на етикети и категории правеше някак по-удобно писането и по-приятно описването на текстовете. Етикетите могат да отдалечат текстовете, да ги направят по-студени и по-надълбоко скрити. Особено ако се ползват без строга мярка.

Работата с етикети ме занимава от доста време, ще оставя темата за друг път. Има много неща, които могат да се кажат за ползването на етикети и други “модерни уеб2.0-неща” със и без причина. Малко наслуки мога да предположа, че навикът за ползване на категории при писане в WP ще свърши добра услуга на ползващите платформата. Понякога четенето по категории не може да се сравни с ровенето и в най-добре поддържаните етикети.

Това, което на мен ми прави впечатление в WP 2.3 обаче не са етикетите или пък проверките за обновления. В Друпал етикетите са нещо естествено присъщо, защото представляват просто един от видовете категории, а проверките за обновления също са включени в Drupal 6. По-интересното в WP 2.3 е, че най-накрая разработчиците са обърнали поглед към нормализирането на адресите. Досега адресите в една инсталация на WP бяха пълна каша.

Чисто чудо е, че някои смятат WP за блог-система, идваща с добре оптимизирани адреси. Чувал съм хората да казват даже, че “гугъл обича уърдпрес”, макар да е ясно, че нещата с търсачките не стават баш така. Много хора не обръщат внимание на това какъв им е адресът и как се формират URI при разлистване на сайта. Според спецификацията си URI се състои от име на сървъра, порт и път до ресурса. За порта е ясно, изписването на подразбиращия се 80-ти се пропуска от програмите. Името на сървъра също има малко вариации, изключая масовото залепяне на “www” отпред, което нито дава някаква информация, нито определя протокола, а само служи на някаква неразбрана от мен висша естетика. И остава последната част, която винаги може да бъде проблемна — пътят до ресурса.

В старите инсталации на WP едно и също съдържание може да се намери на огромен брой адреси. Първо е налице дублиране на съдържание в домейна и в поддомейна “www”. Много малко хора се сещат да поставят пренасочване към адреса, който искат да ползват. Ако ще се ползва даденият домейн, просто трябва в .htaccess-файла да се запише нещо от вида на:


<IfModule mod_rewrite.c>
  RewriteEngine On
  RewriteCond %{HTTP_HOST} ^www\.example\.com$ [NC]
  RewriteRule ^(.*)$ http://example\.com/$1 [R=301,L]
</IfModule>

Ако пък някой много държи да ползва “www”, логиката е обратна. Не помня да съм виждал пренасочване от “www” към основния домейн при WP-блогове. Със сигурност има и такива сайтове, просто не ми е направило впечатление. Достъпни са и от двата домейна, без пренасочване. Не казвам че е нещо чак лошо, но дублиране на съдържанието никога не се толерира от индексиращите машини и едно от първите “правила” (ако има такива) при работата по структурата на сайта при SEO-диагностиката е именно откриване на дублирано съдържание и намиране на начин за премахването му.

WP не ползва .htaccess в основната си инсталация и най-вероятно пренасочванията се правят с изпращане на HTTP-заглавки от PHP. В новата версия 2.3 твърдят, че ако има пренасочване от .htaccess, то трябва да е в синхрон с настроеното в админ-панела на WP, иначе ще се пренасочва в кръг.

Другият проблем на WP бяха пътищата. Безброй различни пътища до едно и също съдържание — основната страница се дублира от /index.php, /index.php/, /?paged=1, /page/1/. Когато се отнася до отделна статия и особено когато са включени кратки адреси на базата на заглавието, тогава комбинациите май надхвърлят десет. Обратните свързвания (trackbacks) и емисиите (rss2, atom) също могат да са налични на различни адреси. И на всичкото това отгоре — почти всеки адрес е достъпен както със, така и без наклонена черта накрая. И цялото това многообразие може да се “стоварва” на търсачките с приставката за генериране карта на сайта. Смея да твърдя, че ако WP нямаше критичната маса потребители в цял свят, това поведение нямаше да се толерира изобщо от търсачките.

Тези дублирания на съдържание могат да се избегнат отново с добре обмислени общи пренасочвания в .htaccess. Идеята е не просто съдържанието да е достъпно от всеки такъв адрес, а да се намира всъщност само на един адрес и всички останали форми на адреса, различните конвенции за образуването му, да водят до това съдържание през пренасочване. С връщане на код за състояние “301”, “постоянно пренасочване”, “permanent redirect”. То казва на търсачките и настолните програми, че съдържанието не е тук, а на еди-кой си адрес. И точка. Браузърите пренаписват URI в адресното поле и обновяват отметките си, а търсачките прочистват индекса си и концентрират рейтинга върху адреса на пренасочване. Така трябва да бъде ;)

Всичко това изглежда е оправено в WP 2.3 с т.нар. “Pretty URLs“. Сред сайтовете по които работя и които поддържам има само един WordPress, който скоро ще обновя да 2.3. Ще се радвам, ако наистина в новата версия адресите са измислени читаво и не се дублира съдържание.

Честита версия 2.3 на всички, които се радват на WordPress и на предизвикателствата и възможностите, които дава свободният софтуер! :)

7 thoughts on “WordPress и стандартните URI

  1. Michel

    WP 2.3 май е по-добър от 2.2, ама още нямам време да го upgrade-на, че само работа и работа… Надявам се тези дни да успея… Мерси за статията, прочетох с голям интерес! :)

  2. Michel

    А, btw, google си обича WordPress, истина е, само напиши “Земята от високо” и виж — пък за изложбата съм писал само веднъж два реда, няма снимки и само пиша че ще отида да я видя някой ден ;-)))))

  3. turin Post author

    Michel, радвам се че ти е интересна статията! Хубаво е това, че имаш работа, виж ако нямаше и търсеше щеше да е по-зле ;) Само не се преуморявай ;)

    Иначе имах предвид, че Google не “обича” WordPress, а просто има голямо вече количество блогове, базирани на него, които имат ценно съдържание. Но това е някакъв вид съвпадение, нещо външно на структурата на URI при WP. Затова и казвам в статията, че ако я нямаше критичната маса вече от потребители на WP в цял свят, това “мазало” във WP по отношение на адресите изобщо нямаше да се толерира. Не зная дали и сега се “толерира” чак или просто при търсенето влияят другите фактори — качество на съдържанието и популярност на адреса.

    А “Земята от високо” не мога да потърся в гугъл, защото аз гугъл не ползвам :) Но потърсих в AltaVista и там на първо място е тема от форумите на Kaldata, а на второ място си ти с Optimiced. ;) Причината според мен не е Уърдпрес, а съдържанието ти и неговата популярност.

    WP работи много добре с обратни свързвания (trackback, pingback), но по отношение на URL-адресите, поне до тази нова версия, си беше пълна скръб ;) Успешно се конкурира по неоптимизирани URL-и с Mambo/Joomla.

  4. Michel

    Това с оптимизацията на URL адресите, не е толкова фатално, така или иначе… Това, че едно и също съдържание би могло да бъде достъпно по 10 различни начина — е, и? :-)

    Важни са начините, които са известни, публични. Примерно, блогът ми е инсталиран на http://www.optimiced.com. Google знае, че е там. Това, че ако решиш, можеш да отвориш моя блог и без ‘www’ отпред, няма значение… Същото важи и за постовете, които публикувам. Всички URLs са с www отпред, и google индексира само тях. Но ти можеш да четеш и без www отпред. Е, поне доскоро… Защото като си сложа WP 2.3 и вече няма да е възможно ;-)

    Ако блогът ми може да отваря един и същи пост по 100 начина различни дори, но са известни само 1 или 2, всичко е наред :)

    Не бива пък и да прекаляваме с превъзнасянето на SEO :)

    Така или иначе е хубаво, че WP са подредили нещата малко сега, но аз не отдавам чак толкова голямо значение на това… По-важно е какво пишеш, а това, дали можеш да си прочетеш статията от blog.com/index.php или blog.com/index.php/… е не толкова важно :) В смисъл, важно е, но все пак, сдържанието е по-важно :)

    My $0.02 :)

  5. Michel

    Хубаво е че имам работа, да :) Не се оплаквам (освен понякога ;-)

    Аз иначе Google ползвам, но обичам алтернативите, просто скоро не съм се присещал… (BTW, Live Search имат много як ajax за търсене на картинки, пробвай някой път, ще ти хареса :)

    Иначе, в този пример исках да кажа, че съдържанието ми не е оптимизирано по SEO стандартите (постингът ми за изложбата), и въпреки това google ме слага на първо място за “земята от високо”, което лично аз не разбирам — как така няма “Дневник”, “Дарик”, “Нетинфо” да излизат на първо място, при условие, че имат в пъти по-висок PR и имат милиони линкове към тях?

    Извод? Тъй като optimiced.com е малък, остава само другото обяснение — Google Likes WordPress ;-) And optimiced.com is powered by WP ;-)

    Хм…

    Мистериите на SEO :)

  6. turin Post author

    Аз не превъзнасям SEO, само се опитвам да разбирам и от него по малко. Не превъзнасям, определено. Прав си, за хората най-важно е съдържанието. Но все пак важни са и други неща — как съдържанието достига до тях, дали по стандартен и унифициран начин, дали е удобно за възприемане, дали е удобно и за машинна обработка от ботове, търсещи информация за хората и т.н. Много са нещата и не може да се каже, че единствено съдържанието е важно. Всяко нещо е важно за добрия сайт и изобщо за добрата услуга в уеб. Просто някои неща са по-основни, а други са съпътстващи. Но и от най-страничните неща зависи добрият сайт. А такива трябва да са всички сайтове, нали ;)

    Това за дублирането на съдържанието — пак причината е машинната обработка. За индексиращите машини винаги е било и е по-удобно съдържанието да е заявено на едно място. Може да се достига до безброй пътища до него, ок — но е редно да се ползват пренасочвания. Кодовете за пренасочване затова са измислени.

    Просто такива са идеите на уеб. Важна е свързаността, прехождането между документите. В идеята за хипертекст е заложено точно това — съдържанието да е на едно място, а всичко друго да са препратки.

    Прав си, че не е фатално — много малко са фаталните неща в уеб, сами виждаме ежедневно сайтове, които хич не се интересуват от основните идеи на уеб. Но аз говорех принципно все пак ;)

    Още нещо — не говоря, че съдържанието не трябва да е достъпно по много начини, с много пътища. Напротив, трябва. Това, което не трябва е тези пътища да “изглеждат” на търсачките като отделни съдържания. Трябва да сме внимателни и вежливи към ботовете в мрежата, ако очакваме и от тях същото. Затова е добре (пак казвам, ок не е нещо фатално, просто е добрата практика) към едно и също съдържание дублираните адреси да сочат с пренасочване, а не директно.

    И също така — в новия WP 2.3 пак ще са ти достъпни ресурсите от всякакви пътища, най-малкото ще са оставени за съвместимост с линкове към старите версии. Просто ще има пренасочвания. Това е нещо вътрешно, за потребителя няма да има забележима разлика ;)

  7. Michel

    Прав си, прав си…

    А и формата е важна, не само съдържанието, разбира се :)

    Примерно, сайт с таблици от преди 10 години, с интересен текст вътре, но изгубен между тонове ненужен код…

    …и една изчистена тема в WP, със същия текст вътре, но всичко добре подредено…

    Според мен, WP ще спечели в такъв случай SEO-то ;-)

    А аз наистина ползвам простичка (за момента поне) обикновена тема на WP… и текстът е на първо място, няма таблици, няма “MSOStyleNormal” глупости вътре, и може би и това оказва влияние?

    Мислим едно и също, малко различно се изразихме само:)

Leave a Reply

Your email address will not be published. Required fields are marked *