Posljednjih godina usluge Googlea i Yandexa čvrsto su ušle u naše živote. U tom smislu, mnogi vjerojatno pitaju što tražilice? Jednostavno rečeno, to je softverski sustav dizajniran za traženje informacija na World Wide Webu. Njegovi se rezultati obično prikazuju u obliku popisa, koji se često naziva stranicama s rezultatima pretraživanja (SERP). Informacije mogu biti kombinacija web stranica, slika i drugih vrsta datoteka. Neke tražilice sadrže i informacije dostupne u bazama podataka ili otvorenim direktorijima.
Za razliku od web-imenika, koje podržavaju samo njihovi urednici, tražilice sadrže i informacije o stvarnom vremenu, koje pokreću algoritam na web pretraživaču.
Sami su se tražilice pojavile pred World Wide Webom - u prosincu 1990. Prva takva usluga zvala se Archie i tražio je naredbe o sadržaju FTP datoteka.
Što je tražilica na internetu? Do rujna 1993. World Wide Web je u potpunosti indeksiran ručno. Postojao je popis web-poslužitelja koje je uređivao Tim Berners-Lee, koji je bio smješten na web-poslužitelju CERN-a. Kako se sve više poslužitelja pojavljivalo na mreži, gore navedena usluga nije uspjela obraditi takve količina informacija.
Jedan od prvih pretraživača koji se temelji na web pretraživanju bio je WebCrawler, koji je objavljen 1994. godine. Za razliku od svojih prethodnika, korisnicima je omogućeno da traže bilo koju riječ na bilo kojoj web stranici. Taj je algoritam od tada postao standard za sve glavne tražilice. To je također bila prva odluka, široko poznata javnosti. Također 1994. godine pokrenuta je usluga Lycos, koja je kasnije postala glavni komercijalni projekt.
Ubrzo nakon toga pojavile su se mnoge tražilice, a njihova popularnost se značajno povećala. To su Magellan, Excite, Infoseek, Inktomi, Northern Light i AltaVista. Yahoo! bio je jedan od najpopularnijih načina pronalaženja web-stranica od interesa, ali njegov algoritam pretraživanja radio je u vlastitom web-imeniku, a ne u stranicama punog teksta. Tražitelji informacija također mogu pregledavati katalog, a ne pretraživati po ključnim riječima.
Google je usvojio ideju prodaje upita za pretraživanje 1998. godine, počevši od male tvrtke, goto.com. Ovaj korak je imao značajan utjecaj na SEO poslovanje, koje je s vremenom postalo jedna od najprofitabilnijih aktivnosti na internetu.
Oko 2000. Google tražilica je postala nadaleko poznata. Tvrtka je postigla bolje rezultate za mnoga pretraživanja putem inovacija pod nazivom PageRank. Ovaj iterativni algoritam procjenjuje web-stranice na temelju njihovih veza s drugim web-mjestima i stranicama, na temelju premise da se drugi često pozivaju na dobre ili željene izvore. Google je također podržao minimalističko sučelje za svoju tražilicu. Naprotiv, mnogi su konkurenti na web portalu izgradili tražilicu. Zapravo, Google je postao toliko popularan da su se pojavili lažni motori, kao što je Mystery Seeker. Danas postoji mnogo regionalnih verzija ove usluge, osobito tražilice Google.ru, namijenjene korisnicima ruskog govornog područja.
Kako je rangiranje i dostava rezultata? Što su tražilice u smislu algoritma akcije? Dobivaju informacije putem web-indeksiranja s web-lokacije na web-lokaciju. Robot ili "pauk" provjerava standardno ime datoteke robots.txt, adresirano na njega, prije slanja određenih informacija za indeksiranje. Fokus je na mnogim čimbenicima, kao što su naslovi, sadržaj stranice, JavaScript, kaskadni stilovi (CSS), kao i standardni HTML oznake za sadržaj ili metapodatke u HTML meta tagovima.
Indeksiranje označava povezivanje riječi i drugih definiranih tokena pronađenih na web stranicama s njihovim imenima domena i HTML baziranim poljima. Udruge se stvaraju u javno dostupnoj bazi podataka koja je dostupna za upite za pretraživanje weba. Zahtjev korisnika može biti jednom riječju. Indeks pomaže da se što brže pronađu informacije vezane uz upit.
Neki od metode indeksiranja i caching su poslovne tajne, dok je indeksiranje weba jednostavan proces posjećivanja svih stranica na sustavnoj osnovi.
Između posjeta robotu, spremljena inačica stranice (dio ili sav sadržaj potreban za prikaz) pohranjena u radnoj memoriji tražilice brzo se šalje korisniku koji traži. Ako posjeta kasni, tražilica može jednostavno djelovati kao web-proxy. U tom slučaju, stranica se može razlikovati od indeksa pretraživanja. Spremljeni izvor prikazuje verziju čije su riječi indeksirane, tako da može biti korisno ako je stvarna stranica izgubljena.
Obično korisnik unese upit za pretraživanje u obliku nekoliko ključnih riječi. Indeks već ima nazive web-lokacija koje sadrže te ključne riječi i odmah se prikazuju. Stvarno opterećenje je izrada web stranica koje su popis rezultata pretraživanja. Svaka stranica na cijelom popisu treba biti ocijenjena prema informacijama u indeksima.
U tom slučaju, gornji element rezultata zahtijeva pretraživanje, rekonstrukciju i označavanje fragmenata, prikazujući kontekst povezanih ključnih riječi. Ovo je samo dio obrade svake web-stranice u rezultatima pretraživanja, a daljnje stranice (pored njega) zahtijevaju većinu daljnje obrade.
Osim jednostavnog pronalaženja ključnih riječi, tražilice nude vlastite GUI ili upravljačke naredbe i pretražuju parametre kako bi poboljšali rezultate.
Pružaju potrebne kontrole za korisnika kroz petlju povratne veze, filtrirajući i ponderirajući pri pročišćavanju željenih podataka, uzimajući u obzir početne stranice prvih rezultata pretraživanja. Na primjer, od 2007. Google.com je dopustio da se dobiveni popis filtrira po datumu klikom na "Prikaži alate za pretraživanje" u krajnjem lijevom stupcu na stranici s izvornim rezultatima, a zatim odabirom željenog raspona datuma.
Većina tražilica podržava korištenje logičkih operatora AND, OR i NOT da bi pomogli krajnjim korisnicima pročistiti upit. Neki operatori su namijenjeni literalima koji omogućuju korisniku da poboljša i proširi uvjete pretraživanja. Robot traži riječi ili fraze na isti način kao i naredbe koje su unesene. Neke tražilice pružaju naprednu funkciju pretraživanja koja korisnicima omogućuje određivanje udaljenosti između ključnih riječi.
Tu je i pretraživanje zasnovano na konceptu, u kojem istraživanje uključuje korištenje statističke analize na stranicama koje sadrže riječi ili fraze koje tražite. Osim toga, zahtjevi na prirodnom jeziku dopuštaju korisniku da unese pitanje u istom obliku u kojem bi tražio osobu (najtipičniji primjer je ask.com).
Korisnost tražilice ovisi o relevantnosti skupa rezultata koji proizvodi. Možda postoje milijuni web stranica koje sadrže određenu riječ ili frazu, ali neke od njih mogu biti relevantnije, popularnije ili autoritativnije od drugih. Većina tražilica koristi metode rangiranja kako bi osigurale najbolje rezultate.
Način na koji tražilica odlučuje koje stranice najbolje odgovaraju upitu i po kojem su redoslijedu pronađeni izvori uvelike varira od jednog do drugog robota. Te se metode s vremenom također mijenjaju s promjenom korištenja Interneta i razvojem novih tehnologija.
Postoje dvije glavne vrste tražilice. Prvi je sustav unaprijed definiranih i hijerarhijski uređenih ključnih riječi kojima su ga ljudi masovno programirali. Drugi je sustav koji generira "invertirani indeks" analizom pronađenih tekstova.
Većina tražilica su komercijalne usluge koje podržavaju prihodi od oglašavanja, te stoga neke od njih omogućuju oglašivačima da imaju ocjenu u prikazanim rezultatima za određenu naknadu. Usluge koje ne prihvaćaju novac za rangiranje zarađuju novac pokretanjem kontekstualnih oglasa pored prikazanih web lokacija. Danas je promocija u tražilicama jedna od najprofitabilnijih zarada u mreži.
Google je najpopularnija tražilica na svijetu s tržišnim udjelom od 80,52% od ožujka 2017. godine.
Ukupna ocjena najčešćih usluga (s tržišnim udjelom većim od 1%) izgleda ovako:
U Rusiji i nekim zemljama istočne Azije Google nije najpopularnija usluga. Među ruskim korisnicima, tražilica Yandex vodi u popularnosti (61,9%) u usporedbi s Googleom (28,3%). U Kini, Baidu je najpopularnija usluga. Južnokorejski pretraživački portal - Naver se koristi za 70% posto online pretraživanja u zemlji. Također Yahoo! u Japanu i Tajvanu najpopularniji je alat za pronalaženje točnih podataka.
Drugi poznati ruski tražilice su Mail i Rambler. S početkom razvoja Runeta, bili su široko popularni, ali sada su snažno izgubili svoje pozicije.
Iako su tražilice programirane da rangiraju web-mjesta na temelju neke od njihovih popularnosti i relevantnosti, empirijske studije ukazuju na različite političke, ekonomske i socijalne kriterije za odabir informacija koje pružaju. Te predrasude mogu biti izravna posljedica ekonomskih (na primjer, tvrtki koje oglašavaju tražilicu također mogu postati popularnije u redovitim rezultatima pretraživanja) i političkih procesa (na primjer, brisanje rezultata pretraživanja u skladu s lokalnim zakonima). Dakle, Google neće prikazati neke neonacističke stranice u Francuskoj i Njemačkoj, gdje je poricanje holokausta protuzakonito.
Globalni rast interneta i elektronskih medija u muslimanskom svijetu tijekom proteklog desetljeća potaknuo je islamske pristaše na Bliskom istoku i azijskom potkontinentu da pokušaju stvoriti vlastite tražilice i filtrirane portale koji će korisnicima omogućiti sigurno pretraživanje.
Takve usluge sadrže filtre koji dodatno klasificiraju web-mjesta kao „halal“ ili „haram“ na temelju trenutačnog stručnog tumačenja „Zakona o islamu“.
Portal ImHalal pojavio se online u rujnu 2011., a Halalgoogling - u srpnju 2013. godine. Oni koriste haraam filtre temeljene na algoritmima Googlea i Binga.
Ostale tražilice orijentirane na religiju su Jewgle (židovska verzija Googlea), kao i Christian SeekFind.org. Oni filtriraju web-lokacije koje poriču ili ponižavaju njihovu vjeru.