
Paskutiniu metu esu apsėstas minties, kad Google - blogas paieškos variklis. Ieškau informacijos šia tema internete (žinoma naudojuosi tuo pačiu Google).
Sakydamas “blogas” aš neturiu galvoje tų galbūt perdėtų sapalionių apie visos informacijos “suindeksavimo” blogį. Ne. Aš žiūriu į šitą reikalą iš kitos pusės: pats paieškos principas yra blogas.
Truputis istorijos: (vadinamieji) pirmosios kartos paieškos varikliai (altavista.com) ieškodavo pavienių žodžių tekste. Norėdami rasti kokį nors konkretų, bet retą referatą, turėdavote beveik visą jo tekstą įvesti (t.y. kuo daugiau žodžių) į paieškos lauką.
Šie paieškos varikliai ieškodavo BŪTENT to ką jūs įvesdavote ir nieko daugiau.
Tada atsirado Stenfordo universiteto paieškos sistema. Pradžioje buvęs kaip paprastas nei-tai-kursinis, nei-tai-diplominis (taip ir nesupratau) dviejų vyrukų - Sergey Brin ir Larry Page - darbas pavirto Google. Ir Google leido sau pasiūlyti jums ne tik tai ko jūs ieškote, bet ir kažko panašaus, bandydamas atspėti ko jūs norite. Visa šita grožybė remiasi PageRank principu. Ištrauka (attention: gana ilga) iš “Why to use Google“:
Mūsų programinės rangos šerdis yra PageRank - sistema, skirta tinklapių įvertinimui, sukurta mūsų įkūrėjų Larry Page’o ir Sergey Brino Stanfordo Universitete. O kol dešimtys inžinierių kasdien dirba, siekdami pagerinti kiekvieną Google aspektą, PageRank ir toliau lieka visų mūsų Interneto paieškos priemonių pagrindu.
PageRank principų paaiškinimas
PageRank remiasi unikaliai demokratiška interneto prigimtimi ir naudojasi interneto nuorodų struktūra kaip atskiro puslapio vertės matu. Iš esmės, Google vertina nuorodą iš puslapio A į puslapį B kaip puslapio A balsą už puslapį B. Tačiau Google žiūri ne vien į balsų (nuorodų) skaičių, sistema taip pat analizuoja ir balsuojantįjį puslapį. Balsai, kuriuos atiduoda puslapiai, kurie patys yra “svarbūs”, vertinami aukščiau ir padeda kitus puslapius padaryti “svarbiais”.Svarbūs, aukštos kokybės tinklapiai gauna aukštesnį PageRank įvertinimą, kurį Google taiko kiekvieną sykį vykdant paiešką. Žinoma, svarbūs puslapiai jums nieko nereiškia, jei jie neatitinka jūsų užklausos. Taigi Google derina PageRank su sudėtinga teksto atitikimo technologija, taip pateikdamas puslapius, kurie yra tiek svarbūs, tiek ir atitinkantys užklausą. Nuspręsdamas, ar puslapis atitinka jūsų užklausą, Google naudojasi ne vien tik žodžio pasikartojimų puslapyje skaičiumi, bet ir atsižvelgia į visus puslapio turinio aspektus (bei puslapių, kurie turi nuorodų į tą puslapį, turinį).
Taigi, PageRank yra sistemos pagrindas. O sistema giriasi, ieškanti to, ko reikia jums. Dar kartą peržvelkit ištrauką viršuje, ten parašyta tik, kad Google ieško svarbių tinklapių, ir žinoma, jie turi atitikti jūsų užklausos žodžius.
Bet sistema iš tiesų iškelia į viršų ne tai ko jūs ieškote, o tai, kas svarbu masėms, t.y. likusiam internetui. Nes PageRank vertina puslapį pagal kitus, su juo susijusius, puslapius.
Faktas kaip blynas, kad Google ne visada randa tai, ko mes norime. Ir ką mes darome? Mes darome tą patį, ką seniau darydavome su pirmos kartos paieškos varikliais - vedame kuo daugiau informacijos. Eksperimentas: tarkime, norim sužinot apie grikius
Įvedam žodį “grikiai“, spaudžiam “Man sekasi” (nes Google giriasi labai dažnai randanti tai ko mums reikia). Mus numeta balažino kur, jei neklystu - į kažkokį dietų puslapį.
Kodėl? Todėl, kad dabar masėms populiaru marintis badu ir apie tai rašyti. Bet ne man, aš tikrai nepanašus į kaulų krūvą, ir net nežadu tokiu tapti. Man tik įdomu kas tie grikiai. Bandom: “Grikių istorija“, “Kas yra grikiai?“. Nieko gero, ištiesų reikia įvesti žodį “Grikis” (džyyyz, aš net nežinojau, kad yra vienąskaita) mus švysteli į wikipedia. Ačiū.
Pagaliau mūsų ir interneto masių nuomonės sutapo ir mes radome tai ko ieškojome.
Kas toliau? Toliau ateis eilė trečios kartos paieškos varikliui. Googlas smuks kaip kad smuko dauguma didelių kompanijų (aš kalbu finansine prasme). Bet tai jau ne į straipsnio temą, kitų, protingesnių dėdžių, papostringavimus šia tema galit pradėti skaityti čia ir paskui nušuoliuoti ten esančiais linkais į kitus gerus straipsnius.









03 Lap 07
21:49
[...] Sepa bloge yra kritikos Google paieškos sistemai. Pakankamai rimtos. Žinoma, Google paieškos naudingumas reikalauja papildomų pastangų, kurių vartotojai vengia. Todėl rezultatai netenkina ir aibės žmonių skundžiasi „paieškos nuovargiu“. Tik labai abejočiau, ar Google nuo to mirs – nemanau, kad visi surinkti programavimo genijai ten geria nemokamą kokakolą ir žaidžia šachmatais – užkulisiuose sukasi ne viena alternatyvi paieškos sistema, pačios Google ir sukurta. [...]
03 Lap 07
22:01
Šiaip jau, dažnai žmonės patys nepripažįsta, kad jie iš tikro nori to, ko nori “vidutinis žmogus”. Visiem atrodo, kad jau aš tai tikrai noriu kažko kito!
Na, o jei rimtai - tai ir pats google turi “personalised search”, kur bent jau teoriškai jis remiasi tavo paties paieškos istorija ir tuo, į kokių rezultatų puslapius tu galų gale nueini.
O jei dar pagalvojus, kad google šiuo metu priklauso praktiškai visa reklama internete, tai jie turėdami informaciją iš reklamų gali tikrai neblogus tavo “browsinimo grafus” susidaryt. Ir tada pateikti atitinkamus paieškos rezultatus. Prasideda aišku etiniai klausimai ir t.t., bet anyway.
04 Lap 07
01:18
lietuviškas web’as yra mažokas, kad Google’as galėtų grikius asocijuot su augalu, o ne su dietom ir receptais.
ieškant angliškai (”buckwheat”), pirma išlenda Wikipedia, po to - keletas kitų puslapių, aprašančių grikius.
pasirodo, yra aktorius Billie “Buckwheat” Thomas. jeigu norime išsiaiškinti, ar Google “supranta” užklausas, galime įvesti “buckwheat actor” ir “buckwheat plant” - pirmam rezultatų lange nebus užuominų apie augalą, antram - apie aktorių.
aš esu beveik įsitikinęs, kad PageRank’o tikrinimas jau tapo tik nedidele dalele to, ką Google serveriai nuveikia per tas 0.06 s :), tuo labiau, kad ir pati kompanija kitose vietose skelbiasi, kad tinklapis ir jo informacija vertinama pagal ~200 faktorių. pvz. pastebėk, kad gūglas ne taip jau ir retai hire’ina lingvistikos analitikus.
na ir “taikymas masėms” IMHO yra labai logiškas žingsnis, nes jeigu daugiau žmonių lietuviškam internete domisi dietiniais patiekalais iš grikių nei pačiais grikiais, tai engine’as, pateikdamas patiekalus ir dietas aukščiau, neklysta.
palaukim semantinio web’o
04 Lap 07
01:21
tu dabar queriui “grikiai” į pirmą dešimtį irgi turbūt pateksi
04 Lap 07
11:24
Jums, ponaitis reikia išmokti ieškoti - tada Google ieškos tai ko jums reikia.
Be to top10, bent man rodo nuoroda į Grikus Wikipedia.
Be to relevantiškumas yra labai sudėtingas dalikas ir iš vieno Lietuviško žodžio ameriketiškai paieškos sistemai labai sudėtingą suprasti ką Jus ieškote (jie mintis skaityti dar nemoką).
Nepamirškite, kad Google visada buvo skirtas Amerikos rinkai, todėl noreti kad Google taip pat puikiai ieškotu Lietuvoje yra ne visai prasminga. Maža Lietuvos rinka tokiai kompaniai kaip Google nera labai įdomi - kam tada čia investuoti?
Be to, man butu įdomi Jūsų nuomone apie Lietuviškus paieškos produktus, kaip jie ieško, tokius kaip http://search.delfi.lt/ ar http://www.netsprint.lt/.
Be to, nuoroda “Why to use Google” yra mirus, bent šio metu.
11 Lap 07
13:21
gal sitas bus geras?
http://www.trueknowledge.com/