Ce este un motor de căutare și cum funcționează. Motoare de căutare de uz general Ce este un motor de căutare

21.11.2017

Oricare ar fi problema omul modern el nu caută răspunsuri în cărți. Îi caută pe internet. Mai mult, nu este nevoie să știți adresa site-ului pe care se află informațiile de care aveți nevoie. Există milioane de astfel de site-uri, iar un motor de căutare te ajută să-l găsești pe cel potrivit.

În vastitatea internetului nostru intern, cele mai populare două motoare de căutare sunt Google și Yandex.

Te-ai întrebat vreodată cum funcționează un motor de căutare? Cum înțelege ea ce site să arate, care dintre milioanele de resurse are exact răspunsul la solicitarea ta?

Ce este un motor de căutare?

Un motor de căutare este o bază de date uriașă de documente web care este actualizată și extinsă în mod constant. Fiecare motor de căutare are păianjeni de căutare, roboții sunt roboți speciali care ocolesc site-urile, indexează conținutul postat pe ele și apoi îl clasifică în funcție de gradul de calitate și relevanță pentru interogările de căutare ale utilizatorilor.

Motoarele de căutare lucrează pentru a se asigura că oricine poate găsi orice informație. Prin urmare, încearcă să arate în primul rând acele documente web care au cel mai detaliat răspuns la întrebarea unei persoane.

În esență, un motor de căutare este un director de site-uri, un director, a cărui funcție principală este să caute informații chiar în acest director.

După cum am scris mai sus, avem două sisteme populare - Google (la nivel mondial) și Yandex (segmentul vorbitor de limbă rusă). Dar există și sisteme precum Rambler, Yahoo, Bing, Mail.Ru și altele. Principiul de funcționare este similar pentru toate, doar algoritmii de clasare diferă (și chiar și asta nu este foarte semnificativ).

Cum funcționează un motor de căutare pe Internet

Principiul de funcționare al motoarelor de căutare este foarte complicat, dar voi încerca să explic în termeni simpli.

Robotul de căutare (păianjen) accesează cu crawlere paginile site-ului, le descarcă conținutul și extrage link-uri. Apoi, indexatorul își începe lucrul - acesta este un program care analizează toate materialele descărcate de păianjeni, pe baza propriilor algoritmi de lucru.

Astfel, se creează o bază de date a motorului de căutare în care sunt stocate toate documentele procesate de algoritm.

Interogarea de căutare este procesată după cum urmează:

se analizează interogarea introdusă de utilizator;
rezultatele analizei sunt transferate într-un modul special de clasare;
sunt procesate datele tuturor documentelor, sunt selectate cele mai relevante pentru interogarea introdusă;
se generează un fragment - titlul, descrierea, cuvintele din interogare sunt evidențiate cu caractere aldine;
rezultatele căutării sunt prezentate utilizatorului sub forma unei SERP (pagină de căutare).

Principiile motoarelor de căutare

Sarcina principală a oricărui motor de căutare este de a oferi utilizatorului cele mai utile și precise informații la cerere. Pentru că robotul de căutare ocolește site-urile în mod constant. Imediat după lansare, după o anumită rutină, păianjenul vine să te viziteze, ocolește un număr de pagini, după care sunt indexate.

Principiul de funcționare al motoarelor de căutare se bazează pe două etape principale:

accesarea cu crawlere a paginilor care colectează date;
atribuirea unui index, datorită căruia sistemul va putea căuta rapid conținutul acestei pagini.

Odată ce o pagină de site este indexată, aceasta va apărea deja în rezultatele căutării pentru o anumită interogare de căutare. Puteți verifica dacă o pagină nouă a fost indexată de un motor de căutare folosind instrumente pentru webmasteri. De exemplu, în Yandex.Webmaster puteți vedea imediat ce pagini au fost indexate și când și care au căzut din index și din ce motiv.

Dar pe ce pagină va ajunge depinde de gradul de indexare și de calitatea conținutului său. Dacă pagina dvs. oferă răspunsul cel mai precis la o interogare, aceasta va fi mai presus de toate celelalte.

Principii de clasare a site-urilor în motoarele de căutare

După ce principiu funcționează roboții de căutare, ne-am dat seama. Dar cum sunt clasate site-urile?

Clasamentul se bazează pe doi „piloni” principali - conținutul text al paginii și factori non-text.

Conținut text este conținutul paginii. Cu cât este mai completă, cu atât mai precisă, cu atât este mai relevantă pentru interogare, cu atât pagina va fi mai sus în rezultatele căutării. Pe lângă textul în sine, motorul de căutare acordă atenție completării etichetelor titlu (titlul paginii), descrierea (descrierea paginii), H1 (titlul textului).

Factori non-text Acestea sunt link-uri interne și link-uri externe. Concluzia este: dacă site-ul este interesant, util, înseamnă că alte resurse tematice se leagă de el. Și cu cât mai multe astfel de link-uri, cu atât mai autoritară este resursa.

Dar acestea sunt cele mai de bază principii, foarte pe scurt. Să aprofundăm puțin.

Principalfactori de clasare a site-ului web

Există o serie de factori care afectează clasarea unui site. Principalele sunt:

1. ÎnFactori interni de clasificare a site-ului

Acesta este textul de pe site și designul acestuia - subtitluri, evidențiind punctele importante din text. Utilizarea legăturilor interne se aplică și aici. Elementele vizuale sunt și ele importante: utilizarea imaginilor, fotografiilor, videoclipurilor, graficelor. Calitatea textului în sine, conținutul său este, de asemenea, importantă.

2. Factori externi de clasificare a site-ului care îi determină popularitatea. Acestea sunt aceleași link-uri externe care duc la site-ul dvs. din alte resurse. Nu se determină doar numărul acestor site-uri, ci și calitatea acestora (este de dorit ca site-urile să fie asemănătoare cu ale dvs.), precum și calitatea generală a profilului de link (cât de repede au apărut aceste linkuri, în mod natural sau prin achiziții la bursă) .

Pe baza celor de mai sus, se poate trage o concluzie: motoarele de cautare incearca sa functioneze in asa fel incat sa arate utilizatorului acele site-uri care dau cel mai complet raspuns la cererea lui si au castigat deja o anumita autoritate.În acest caz, sunt luați în considerare o varietate de factori: conținutul site-ului și setările acestuia și atitudinea utilizatorilor față de acesta. Un site care este bun din toate punctele de vedere va ocupa cu siguranță un loc înalt în SERP.

Arhitectura unui motor de căutare include de obicei:

YouTube enciclopedic

1 / 5

✪ Lecția 3: Cum funcționează un motor de căutare. Introducere în SEO

✪ Motor de căutare din interior

✪ Shodan - Google negru

✪ Motorul de căutare Cheburashka va înlocui Google și Yandex în Rusia

✪ Lecția 1 - Cum funcționează un motor de căutare

Subtitrări

Istorie

Cronologie
An	Sistem	Eveniment
1993	W3Catalog?!	lansa
	Aliweb	lansa
	JumpStation	lansa
1994	crawler web	lansa
	infoseek	lansa
	Lycos	lansa
1995	AltaVista	lansa
	Daum	Baza
	text deschis index web	lansa
	Magellan	lansa
	Excita	lansa
	SAPO	lansa
	Yahoo!	lansa
1996	Dogpile	lansa
	Inktomi	Baza
	Hoinar	Baza
	hotbot	Baza
	Întreabă-l pe Jeeves	Baza
1997	Lumina Nordului	lansa
1997	Yandex	lansa
1998	Google	lansa
1999	AlltheWeb	lansa
	Genie Knows	Baza
	Naver	lansa
	Teoma	Baza
	Vivisimo	Baza
2000	Baidu	Baza
2000	Exalead	Baza
2003	info.com	lansa
2004	Yahoo! Căutare	Lansare finală
	A9.com	lansa
	sogou	lansa
2005	MSN Search	Lansare finală
	Ask.com	lansa
	Nigma	lansa
	bună căutare	lansa
Cauta-ma	Baza
2006	wikiseek	Baza
	Quaero	Baza
	Cautare in timp real	lansa
	ChaCha	Lansare (beta)
	Guruji.com	Lansare (beta)
2007	wikiseek	lansa
	Sproose	lansa
	Căutare Wikia	lansa
	blackle.com	lansa
2008	DuckDuckGo	lansa
	Tooby	lansa
	Picolator	lansa
	Viewzi	lansa
	Cuil	lansa
	Boogami	lansa
	LeapFish	Lansare (beta)
	Forestle	lansa
	VADLO	lansa
	set de putere	lansa
2009	bing	lansa
	KAZ.KZ	lansa
	Yebol	Lansare (beta)
	Mugurdy	închidere
	cercetaș	lansa
2010	Cuil	închidere
	Blekko	Lansare (beta)
	Viewzi	închidere
2012	WAZZUB	lansa
2014	Satelit	Lansare (beta)

Într-un stadiu incipient al dezvoltării Internetului, Tim Berners-Lee a menținut o listă de servere web postată pe site-ul CERN. Au existat tot mai multe site-uri, iar menținerea manuală a unei astfel de liste a devenit din ce în ce mai dificilă. Site-ul NCSA avea o secțiune dedicată „Ce este nou!”. (ing. Ce este nou!), unde au publicat link-uri către site-uri noi.

Primul program de calculator pentru căutarea pe Internet a fost Archie(Engleză archie - arhivă fără litera „c”). A fost creat în 1990 de Alan Emtage, Bill Heelan și J. Peter Deutsch, studenți la informatică la Universitatea McGill din Montreal. Programul a descărcat liste cu toate fișierele de pe toate serverele FTP anonime disponibile și a construit o bază de date care putea fi căutată după numele fișierelor. Cu toate acestea, programul lui Archie nu a indexat conținutul acestor fișiere, deoarece cantitatea de date era atât de mică încât totul putea fi găsit cu ușurință manual.

Dezvoltare și distribuție protocol de rețea Gopher, inventat în 1991 de Mark McCahill la Universitatea din Minnesota, a condus la crearea a două noi programe de căutare, Veronicași Jughead. La fel ca Archie, au căutat numele fișierelor și anteturile stocate în sistemele de index ale lui Gopher. Veronica (engleză) Foarte ușor, orientat spre rozătoare, index la nivel de rețea la arhivele computerizate) au permis căutări de cuvinte cheie pentru majoritatea titlurilor de meniu Gopher din toate listele Gopher. Programul Jughead Excavarea și afișarea ierarhiei universale a lui Jonzy) a preluat informații de meniu de la anumite servere Gopher. Deși numele motorului de căutare al lui Archie nu avea legătură cu seria de benzi desenate "Archie", cu toate acestea Veronica și Jughead sunt personaje din aceste benzi desenate.

Până în vara lui 1993, nu exista încă un singur sistem de căutare pe web, deși numeroase directoare specializate au fost întreținute manual. Oscar Nierstrasz de la Universitatea din Geneva a scris o serie de scripturi Perl care copiau periodic aceste pagini și le rescriu într-un format standard. Aceasta a devenit baza pentru W3Catalog?!, primul motor de căutare web primitiv, lansat pe 2 septembrie 1993.

Probabil că primul motor de căutare scris în Perl a fost „World Wide Web Wanderer”, un bot de Matthew Gray din iunie 1993. Acest robot a creat indexul de căutare „Wandex”. Scopul robotului Wanderer a fost să măsoare dimensiunea World Wide Web și să găsească toate paginile web care conțin cuvintele din interogare. În 1993, a apărut al doilea motor de căutare Aliweb. Aliweb nu a folosit un crawler, ci a așteptat în schimb notificări de la administratorii site-urilor web despre prezența unui fișier index într-un anumit format pe site-urile lor.

JumpStation, creat în decembrie 1993 de Jonathan Fletcher, a căutat și indexat pagini web folosind un crawler și a folosit un formular web ca interfață pentru formularea interogărilor de căutare. A fost primul instrument de căutare pe Internet care a combinat cele trei funcții esențiale ale unui motor de căutare (verificare, indexare și căutare reală). Datorită resurselor limitate ale computerelor din acea vreme, indexarea și, prin urmare, căutarea, era limitată doar la titlurile și titlurile paginilor web găsite de crawler.

Motoarele de căutare au participat la Dot-com Bubble de la sfârșitul anilor 1990. Mai multe companii au intrat pe piață într-un mod spectaculos, generând profituri record în timpul IPO-urilor lor. Unii au abandonat piața motoarelor de căutare open-source și lucrează doar cu sectorul corporatist, de exemplu, Lumina Nordului.

Google a preluat ideea de a vinde cuvinte cheie în 1998, când era o companie mică care rula un motor de căutare la goto.com. Mișcarea a marcat o schimbare pentru motoarele de căutare de la concurența între ele la a deveni una dintre cele mai profitabile întreprinderi de afaceri de pe Internet. Motoarele de căutare au început să vândă companiile individuale primele locuri în rezultatele căutării.

Motorul de căutare Google a fost într-o poziție proeminentă încă de la începutul anilor 2000. Compania a atins o poziție înaltă datorită rezultatelor bune de căutare folosind algoritmul PageRank. Algoritmul a fost prezentat publicului în articolul „The Anatomy of Search Engine” scris de Sergey Brin și Larry Page, fondatorii Google. Acest algoritm iterativ clasifică paginile web pe baza unei estimări a numărului de hyperlinkuri către o pagină web, presupunând că paginile „bune” și „importante” primesc mai multe link-uri decât altele. Interfața Google este concepută într-un stil spartan, unde nu este nimic de prisos, spre deosebire de mulți dintre concurenții săi care au integrat motorul de căutare în portalul web. Motorul de căutare Google a devenit atât de popular încât au apărut imitatori ai acestuia, de exemplu, Căutător de mistere(motor de căutare secret).

Căutați informații în rusă

În 1996, a fost implementată o căutare ținând cont de morfologia rusă pe motorul de căutare Altavista și au fost lansate motoarele de căutare originale rusești Rambler și Aport. La 23 septembrie 1997, motorul de căutare Yandex a fost deschis. Pe 22 mai 2014, motorul național de căutare Sputnik a fost deschis de către Rostelecom, care la momentul anului 2015 se află în testare beta. Pe 22 aprilie 2015 a fost lansat un nou serviciu Sputnik. Copii special pentru copii cu siguranta sporita.

Metodele de analiză a clusterelor și căutarea metadatelor au câștigat o mare popularitate. Dintre mașinile internaționale de acest fel, cel mai faimos a fost "Clusty" companiilor Vivisimo. În 2005, cu sprijinul Universității de Stat din Moscova, motorul de căutare Nigma a fost lansat în Rusia, care acceptă gruparea automată. În 2006, a fost deschisă metamașina rusă Quintura, oferind grupare vizuală sub forma unui nor de etichete. Nigma a experimentat și gruparea vizuală.

Cum funcționează motorul de căutare

Principalele componente ale unui motor de căutare: robot de căutare, indexator, motor de căutare.

De regulă, sistemele funcționează în etape. În primul rând, crawler-ul primește conținutul, apoi indexerul generează un index care poate fi căutat și, în sfârșit, crawler-ul oferă funcționalitatea de a căuta datele indexate. Pentru a actualiza motorul de căutare, acest ciclu de indexare se repetă.

Motoarele de căutare funcționează prin stocarea informațiilor despre multe pagini web pe care le obțin din paginile HTML. Robot de căutare sau „crawler” (ing. Crawler) – un program care urmărește automat toate linkurile găsite pe pagină și le evidențiază. Crawler-ul, pe baza link-urilor sau pe baza unei liste predefinite de adrese, caută noi documente care nu sunt încă cunoscute de motorul de căutare. Proprietarul site-ului poate exclude anumite pagini folosind robots.txt , care poate fi folosit pentru a preveni indexarea fișierelor, paginilor sau directoarelor site-ului.

Motorul de căutare analizează conținutul fiecărei pagini pentru o indexare ulterioară. Cuvintele pot fi extrase din titluri, textul paginii sau câmpuri speciale - meta-etichete. Un indexator este un modul care analizează o pagină, după împărțirea ei în părți, folosind proprii algoritmi lexicali și morfologici. Toate elementele unei pagini web sunt izolate și analizate separat. Datele paginilor web sunt stocate într-o bază de date index pentru a fi utilizate în solicitările ulterioare. Indexul vă permite să găsiți rapid informații despre solicitarea utilizatorului. O serie de motoare de căutare, cum ar fi Google, stochează pagina originală integral sau parțial, așa-numita cache, precum și diverse informatii despre pagina web. Alte sisteme asemănător sistemului AltaVista stochează fiecare cuvânt din fiecare pagină pe care o găsește. Utilizarea memoriei cache ajută la accelerarea extragerii informațiilor din paginile deja vizitate. Paginile stocate în cache conțin întotdeauna textul specificat de utilizator în interogarea de căutare. Acest lucru poate fi util atunci când pagina web a fost actualizată, adică nu mai conține textul solicitării utilizatorului, iar pagina din cache este încă veche. Această situație este legată de pierderea legăturilor (ing. linkrot) și abordarea Google ușor de utilizat (utilizabilitate). Aceasta implică emiterea unor bucăți scurte de text din memoria cache care conține textul interogării. Se aplică principiul celei mai mici surprize, utilizatorul se așteaptă de obicei să vadă cuvintele căutate în textele paginilor primite ( așteptările utilizatorilor). Pe lângă accelerarea căutărilor folosind paginile din cache, paginile din cache pot conține informații care nu mai sunt disponibile în altă parte.

Motorul de căutare funcționează cu fișierele de ieșire primite de la indexator. Motorul de căutare acceptă cererile utilizatorilor, le procesează folosind un index și returnează rezultatele căutării.

Când un utilizator introduce o interogare într-un motor de căutare (de obicei folosind cuvinte cheie), sistemul își verifică indexul și returnează o listă cu cele mai relevante pagini web (sortate după un anumit criteriu), de obicei cu o scurtă adnotare care conține titlul documentului și uneori părți ale textului. Indexul de căutare este construit după o tehnică specială bazată pe informații extrase din paginile web. Din 2007 motor de căutare Google vă permite să căutați în funcție de timp, să creați documentele dorite (apelați meniul „Instrumente de căutare” și specificați intervalul de timp). Majoritatea motoarelor de căutare acceptă utilizarea operatorilor boolean AND, OR, NOT în interogări, ceea ce vă permite să rafinați sau să extindeți lista de cuvinte cheie căutate. În acest caz, sistemul va căuta cuvinte sau expresii exact așa cum au fost introduse. Unele motoare de căutare permit căutare aproximativă, în acest caz, utilizatorii extind zona de căutare specificând distanța până la cuvintele cheie . Există, de asemenea căutare conceptuală, care utilizează o analiză statistică a utilizării cuvintelor și expresiilor de căutare în textele paginilor web. Aceste sisteme vă permit să compuneți interogări în limbaj natural. Un exemplu de astfel de motor de căutare este site-ul ask com.

Utilitatea unui motor de căutare depinde de relevanța paginilor pe care le găsește. În timp ce milioane de pagini web pot include un cuvânt sau o expresie, unele pot fi mai relevante, populare sau mai autorizate decât altele. Majoritatea motoarelor de căutare folosesc metode de clasare pentru a aduce cele mai bune rezultate în fruntea listei. Motoarele de căutare decid ce pagini sunt mai relevante și în ce ordine rezultatele ar trebui afișate în moduri diferite. Metodele de căutare, precum Internetul însuși, se schimbă în timp. Astfel, au apărut două tipuri principale de motoare de căutare: sisteme de cuvinte cheie predefinite și ordonate ierarhic și sisteme în care se generează un index inversat pe baza analizei textului.

Majoritatea motoarelor de căutare sunt întreprinderi comerciale care realizează profit din publicitate, în unele motoare de căutare poți cumpăra poziții de top în rezultatele căutării pentru anumite cuvinte cheie contra cost. Acele motoare de căutare care nu taxează pentru ordinea rezultatelor, câștigă din publicitate contextuală, în timp ce mesajele publicitare corespund solicitării utilizatorului. Astfel de anunțuri sunt afișate pe pagină cu o listă de rezultate de căutare, iar motoarele de căutare câștigă de fiecare dată când un utilizator dă clic pe mesaje publicitare.

Tipuri de motoare de căutare

Există patru tipuri de motoare de căutare: robotizate, conduse de oameni, hibride și metasisteme.

sisteme care utilizează roboți de căutare

Acestea constau din trei părți: un crawler („bot”, „robot” sau „păianjen”), un index și un software pentru motor de căutare. Crawler-ul este necesar pentru a ocoli rețeaua și pentru a crea liste de pagini web. Index - arhiva mare copii ale paginilor web. Ţintă software- Evaluați rezultatele căutării. Datorită faptului că crawler-ul din acest mecanism explorează în mod constant rețeaua, informațiile sunt mai actualizate. Majoritatea motoarelor de căutare moderne sunt sisteme de acest tip.

sisteme controlate de om (cataloage de resurse)

Aceste motoare de căutare primesc liste de pagini web. Directorul conține adresa, titlul și o scurtă descriere a site-ului. Catalogul de resurse caută rezultate numai din descrierile paginilor trimise acestuia de webmasteri. Avantajul directoarelor este că toate resursele sunt verificate manual, prin urmare, calitatea conținutului va fi mai bună în comparație cu rezultatele obținute automat de sistemul de primul tip. Dar există și un dezavantaj - actualizarea acestor cataloage se face manual și poate rămâne semnificativ în urma situației reale. Clasamentul paginilor nu se poate schimba instantaneu. Exemple de astfel de sisteme sunt directorul Yahoo, dmoz și Galaxy.

sisteme hibride

Motoarele de căutare precum Yahoo, Google, MSN combină funcțiile sistemelor folosind roboți de căutare și sisteme controlate de om.

meta-sisteme

Motoarele de metacăutare combină și clasifică rezultatele mai multor motoare de căutare simultan. Aceste motoare de căutare erau utile atunci când fiecare motor de căutare avea un index unic, iar motoarele de căutare erau mai puțin „inteligente”. Deoarece căutarea s-a îmbunătățit atât de mult acum, nevoia de ele a scăzut. Exemple: MetaCrawlerși MSN Search.

Piața motoarelor de căutare

Google este cel mai popular motor de căutare din lume, cu o cotă de piață de 68,69%. Bing ocupă poziţia a doua, cota sa fiind de 12,26%.

Cele mai populare motoare de căutare din lume:

Sistem de căutare	Cota de piata in iulie 2014	Cota de piata in octombrie 2014	Cota de piata in septembrie 2015
Google	68,69 %	58,01 %	69,24%
Baidu	17,17 %	29,06 %	6,48%
bing	6,22 %	8,01 %	12,26%
Yahoo!	6,74 %	4,01 %	9,19%
AOL	0,13 %	0,21 %	1,11%
Excita	0,22 %	0,00 %	0,00 %
Cere	0,13 %	0,10 %	0,24%

Asia

În țările din Asia de Est și în Rusia, Google nu este cel mai popular motor de căutare. În China, de exemplu, mai popular motor de căutare Soso?!.

În Coreea de Sud, portalul de căutare proprietar al Naver este folosit de aproximativ 70% din Yahoo! Japonia și Yahoo! Taiwan sunt cele mai populare motoare de căutare din Japonia și, respectiv, Taiwan.

Rusia și motoarele de căutare în limba rusă

Conform datelor LiveInternet din iunie 2015 privind acoperirea interogărilor de căutare în limba rusă:

Toate limbi:
- Yahoo! (0,1%) și motoarele de căutare deținute de această companie: Inktomi, AltaVista , Alltheweb
vorbitor de limba engleza si international:
- Întreabă-l pe Jeeves(mecanismul Teoma)
Limbă rusă - majoritatea motoarelor de căutare „vorbitoare rusă” indexează și caută texte în multe limbi - ucraineană, belarusă, engleză, tătără și altele. Ele diferă de sistemele „toate limbi” care indexează toate documentele la rând, prin aceea că indexează în principal resursele situate în zonele de domeniu în care domină limba rusă sau, altfel, își limitează roboții la site-uri în limba rusă.

Unele dintre motoarele de căutare folosesc algoritmi de căutare externi.

Date cantitative ale motorului de căutare Google

Numărul de utilizatori de Internet și motoare de căutare și cerințele utilizatorilor pentru aceste sisteme este în continuă creștere. Pentru a crește viteza de căutare a informațiilor necesare, motoarele de căutare majore conțin un numar mare de servere. Serverele sunt de obicei grupate în centre de servere (centre de date). Motoarele de căutare populare au centre de server împrăștiate în toată lumea.

În octombrie 2012, Google a lansat proiectul Where the Internet Lives, unde utilizatorilor li se oferă posibilitatea de a se familiariza cu centrele de date ale companiei.

Despre activitatea centrelor de date ale motoarelor de căutare sistemul Google se stie urmatoarele:

Capacitatea totală a tuturor centrelor de date Google, începând cu 2011, a fost estimată la 220 MW.
Când Google a plănuit să deschidă un nou complex cu trei clădiri de 6,5 milioane m² în Oregon în 2008, Harper's Magazine a estimat că un complex atât de mare ar consuma peste 100 MW de energie electrică, ceea ce este comparabil cu consumul de energie al unui oraș de 300.000 de oameni. .
Numărul estimat de servere Google în 2012 este de 1.000.000.
Cheltuielile Google pentru centrele de date au fost de 1,9 miliarde de dolari în 2006 și de 2,4 miliarde de dolari în 2007.

Dimensiunea World Wide Web indexată de Google în decembrie 2014 este de aproximativ 4,36 miliarde de pagini.

Motoare de căutare care țin cont de interdicțiile religioase

Răspândirea globală a internetului și popularitatea tot mai mare a dispozitivelor electronice în lumea arabă și musulmană, în special în țările din Orientul Mijlociu și subcontinentul indian, au contribuit la dezvoltarea motoarelor de căutare locale care țin cont de tradițiile islamice. Astfel de motoare de căutare conțin filtre speciale care ajută utilizatorii să evite accesarea site-urilor interzise, cum ar fi site-urile cu pornografie, și le permit să utilizeze numai acele site-uri al căror conținut nu este contrar credinței islamice. Cu puțin timp înainte de luna musulmană Ramadan, în iulie 2013, a fost introdusă lumea Google-ul halal- un sistem care oferă utilizatorilor numai linkuri „corecte” halal prin filtrarea rezultatelor căutării primite de la alte motoare de căutare precum Google și Bing. Cu doi ani mai devreme, în septembrie 2011, motorul de căutare I'mHalal a fost lansat pentru a servi utilizatorilor din Orientul Mijlociu. Totuși, acest serviciu de căutare a trebuit să fie închis în scurt timp, potrivit proprietarului, din lipsă de finanțare.

Lipsa investițiilor și ritmul lent de difuzare a tehnologiei în lumea musulmană a împiedicat progresul și a împiedicat succesul unui motor de căutare islamic serios. Eșecul investițiilor uriașe în proiecte web de stil de viață musulman, dintre care unul a fost Muxlim. El a primit milioane de dolari de la investitori precum Rite Internet Ventures, iar acum - în conformitate cu ultimul mesaj de la I'mHalal înainte de închiderea sa - vine cu ideea îndoielnică că „următorul Facebook sau Google poate apărea în Orientul Mijlociu doar dacă susții tineretul nostru strălucit” . Cu toate acestea, experții islamici în internet s-au ocupat de ani de zile să definească ceea ce este sau nu în conformitate cu Sharia și clasifică site-urile drept „halal” sau „haram”. Toate motoarele de căutare islamice anterioare și actuale sunt doar un set de date indexat special, sau sunt motoare de căutare majore, cum ar fi Google, Yahoo și Bing, cu un fel de sistem de filtrare folosit pentru a împiedica utilizatorii să acceseze site-uri haraam, cum ar fi site-uri despre nuditate, LGBT, jocurile de noroc și orice altceva care este considerat anti-islam.

Printre alte motoare de căutare orientate spre religie, Jewogle, versiunea evreiască a Google și SeekFind.org, un site creștin care include filtre pentru a ține utilizatorii departe de conținutul care le-ar putea submina sau slăbi credința, sunt comune.

Rezultate personale și bule de filtrare

Multe motoare de căutare, cum ar fi Google și Bing, folosesc algoritmi pentru a ghici selectiv ce informații ar dori să vadă un utilizator pe baza activităților sale anterioare pe sistem. Drept urmare, site-urile web afișează doar informații care sunt în concordanță cu interesele trecute ale utilizatorului. Acest efect se numește „bulă de filtru”.

Toate acestea duc la faptul că utilizatorii primesc mult mai puține informații care contrazic punctul lor de vedere și devin izolați intelectual în propria „bulă informațională”. Astfel, „efectul bulei” poate avea consecințe negative pentru formarea opiniei civice.

Prejudecata motorului de căutare

Deși motoarele de căutare sunt programate să clasifice site-urile web pe baza unei combinații de popularitate și relevanță, realitatea este că cercetările experimentale indică faptul că diverși factori politici, economici și sociali influențează SERP-urile.

Această părtinire poate fi un rezultat direct al proceselor economice și comerciale: companiile care fac publicitate pe un motor de căutare pot deveni mai populare în rezultatele căutării organice pe acel motor de căutare. Eliminarea rezultatelor căutării care nu respectă legile locale este un exemplu de influență a proceselor politice. De exemplu, Google nu va afișa unele site-uri web neonaziste în Franța și Germania, unde negarea Holocaustului este ilegală.

Prejudecata poate rezulta si din procesele sociale, deoarece algoritmii motoarelor de căutare sunt adesea proiectați pentru a exclude punctele de vedere neformatate în favoarea unor rezultate mai „populare”. Algoritmii de indexare ai marilor motoare de căutare prioritizează site-urile americane.

Bomba de căutare este un exemplu de încercare de a manipula rezultatele căutării din motive politice, sociale sau comerciale.

Vezi si

Qwika
Bibliotecă electronică #Liste biblioteci și sisteme de căutare
Bara de instrumente pentru dezvoltatori web

Note

Literatură

Ashmanov I. S., Ivanov A.A. Promovarea site-ului web în motoarele de căutare. - M. : Williams, 2007. - 304 p. - ISBN 978-5-8459-1155-1.
Baikov V.D. Internet. Căutați informații. Promovarea site-ului web. - St.Petersburg. : BHV-Petersburg, 2000. - 288 p. - ISBN 5-8206-0095-9.
Kolisnichenko D. N. Motoarele de căutare și promovarea site-urilor pe Internet. - M.: Dialectică, 2007. - 272 p. - ISBN 978-5-8459-1269-5.

Lande D.V. Căutați cunoștințe pe Internet. - M. : Dialectică, 2005. - 272 p. - ISBN 5-8459-0764-0.

Lande D.V., Snarsky A. A., Bezsudnov I.V. Internet: Navigarea în rețele complexe: modele și algoritmi. - M.: Librokom (Editorial URSS), 2009. - 264 p. - ISBN 978-5-397-00497-8.

Chu H., Rosenthal M.

Buna ziua, dragi cititori! Cu tine Ekaterina Kalmykova. Articolul de astăzi va fi dedicat unui astfel de concept precum un motor de căutare, ce este, pentru ce este. De asemenea, vom arunca o privire mai atentă asupra tipurilor de motoare de căutare de pe Internet.

Dacă aveți o întrebare: „De ce ar trebui să știu despre aceste motoare de căutare?”, atunci voi răspunde astfel. Când mănânci o supă delicioasă într-un restaurant, ți-ar plăcea să știi din ce ingrediente este făcută ca să o poți repeta și tu acasă? La urma urmei, dacă ești mulțumit de rezultatul final, adică de gustul supei, atunci cu siguranță ai fi interesat să știi ce a dus la un astfel de rezultat?

Puteți spune și despre lucrul cu un motor de căutare (PS). Dacă vă creați propriul blog în viitor, atunci cunoscând munca PS nu va trebui să căutați ajutor de la specialiști. Veți putea să vă gestionați independent proiectul în așa fel încât motorul de căutare să îl vadă și să îl arate altor utilizatori. La urma urmei, prezența resursei tale și, în consecință, câștigurile vor depinde de acest lucru.

Asadar, haideti sa începem.

Ce este un motor de căutare?

Un motor de căutare este o resursă specială de pe Internet care furnizează informații utilizatorului în conformitate cu solicitarea acestuia. Adică, această resursă colectează toate datele de pe rețeaua globală, toate proiectele web, iar atunci când se primește o cerere specifică de la utilizator, oferă informațiile necesare, trimițându-le, de exemplu, către un blog tematic sau un site web.

Astfel, după crearea proiectului, sarcina ta va fi să intri în problemă, adică în „lista” sau baza de date a motorului de căutare. Deoarece promovarea site-ului pe Internet pur și simplu nu este posibilă fără utilizarea oricărui motor de căutare, prin urmare, va trebui să aveți grijă de calitatea resursei dvs., de optimizarea acesteia internă și externă. Vom discuta cum să facem acest lucru în articolele viitoare. Deci nu ratați.

Între timp, dacă decideți să vă creați propriul blog, vă recomand să citiți aceste articole:

Deoarece noi resurse web apar aproape în fiecare zi, baza de date a motoarelor de căutare trebuie actualizată în mod constant în consecință. Fiecare site nou creat trebuie să fie indexat de robot. În termeni simpli, asistenții PS - roboții trebuie să se familiarizeze cu noua resursă și să transfere aceste date către motorul de căutare însuși.

Ei bine, aici probabil ați ghicit că atunci când un robot vă vizitează blogul, ar trebui să-i placă totul. Soarta ta viitoare va depinde de acest oaspete.

Cum să faci robotul din proiectul tău complet încântat, o să povestesc într-unul din articolele următoare. Nu o ratați, vor fi informații interesante și foarte curioase pe care vi le voi împărtăși.

Munca motoarelor de căutare

Toate lucrările legate de PS începe cu introducerea interogării dorite în bara de căutare. Ce ar putea căuta utilizatorii? Da, orice, de la o rețetă de plăcinte cu varză la întrebarea veche „cum să faci mai mulți bani fără să faci nimic”.

Pentru ca resursa ta să apară ca răspuns la o întrebare, trebuie să fii înaintea concurenților tăi. Pentru a face acest lucru, trebuie să acordați o atenție deosebită promovării proiectului dvs., care include activități precum scrierea de conținut optimizat de înaltă calitate, adică răspunsul la solicitările articolului, îmbunătățirea factorului comportamental, adică este interesant pentru cititorul dvs. să fie pe resursă, aceasta este o îmbunătățire a gradului de utilizare, adică confortul vizitatorului și mulți alți factori. Aceasta este ceea ce vom învăța să facem cu toții.

Componentele motorului de căutare

Și ce ajută motoarele de căutare, de exemplu, același Google să indexeze resursa dvs.?

Agenții sunt lucrători care fac cea mai mare parte a muncii - ei indexează și analizează site-urile.
Spiders (spider) - un program care poate descărca paginile unei resurse web și poate colecta informatii generale despre el.
Crawler (crawler) - un program care găsește toate legăturile de pe pagini, în urma cărora caută date noi necunoscute motoarelor de căutare.
Indexator - analizează textul, titlurile, stilul etc.
Roboți - indexați paginile conținutului dvs. și, de asemenea, studiați o varietate de link-uri.

Pentru ca indexarea să aibă loc așa cum aveți nevoie, creați un document special „robots.txt”. Permite sistemului să verifice doar paginile de care aveți nevoie și să le elimine pe cele pe care nu doriți să le vedeți.

Tipuri de motoare de căutare

Există mai multe opțiuni pentru sistemele de recuperare a informațiilor:

Cataloage. O simplă comparație de căutare este un raft de cărți într-o bibliotecă. Totul este stocat acolo în subcategorii și categorii ale unui anumit subiect. Dacă ai intrat într-un astfel de motor de căutare, atunci crede-mă, informațiile pe care le vei găsi acolo vor fi mai mult decât utile și de înțeles pentru percepția ta. Am ghicit despre ce site comun în cauză? Desigur, despre Wikipedia, care a adunat un întreg director de informații utile.
Căutați indicatori. Căutarea în date se efectuează în detrimentul frazelor cheie. Este atât convenabil, cât și incomod în același timp. Cred că acei oameni care caută, de exemplu, „Girl shows class” mă vor înțelege, pentru a afla cum o fată își arată degetul mare, iar în căutare iese ceva nu foarte decent. 🙂 Acest tip de căutare caracterizează majoritatea motoarelor de căutare.
sisteme de rating. Determinați-vă popularitatea datorită numărului de vizite. Desigur, nu este cel mai bun criteriu, deoarece utilitatea și calitatea resursei în sine nu este întotdeauna luată în considerare. Un exemplu de astfel de sistem este resursa de internet alexa.com.

Motoarele de căutare sunt, de asemenea, împărțite în generale si de specialitate. Motoarele de căutare generale sortează informațiile fără nicio selecție pentru toate resursele web cunoscute de ei. Acestea includ Yandex, Rambler, Google. Specializat - sortați după limba folosită.

De asemenea, motoarele de căutare pot fi împărțite în distribuție regională și mondială.

Astăzi, toate motoarele de căutare își îmbunătățesc constant algoritmii de selectare a resurselor relevante, de înaltă calitate.

Un pic de istorie

PS a apărut în Runet în 1996 - acestea sunt Aport și Rambler. Un an mai târziu, în 1997, s-a format Yandex, iar un an mai târziu, în 1998, a apărut un alt concurent - Google. În prezent, cele mai populare sunt Yandex și Google.

Care sunt cele mai populare motoare de căutare în acest moment?

Iată statisticile:

După cum puteți vedea, Yandex este acum cel mai popular din Rusia, împreună cu Google și Mail.

Astfel, puteți vedea căutările de top pe care ar trebui să vă concentrați atunci când vă creați și promovați proiectul.

Motor de căutare Yandex (Yandex)

Principiul de funcționare este următorul: șir de căutare introduceți interogarea pe care o căutați, faceți clic pe „Găsiți” și vedeți rezultatul. Yandex a primit 13 milioane de răspunsuri la solicitarea dvs. Puteți căuta și în imagini, videoclipuri, piață (uitați-vă în coloana din stânga).

În plus, puteți seta regiunea de căutare. Pentru a face acest lucru, faceți clic pe pictograma de lângă cruce din bara de căutare și selectați regiunea dorită în fereastra de filtrare.

Motor de căutare Google (Google)

Google funcționează similar cu Yandex. Puteți căuta informații în diferite secțiuni: imagini, videoclipuri, știri, hărți etc.

Dacă faceți clic pe „Instrumente de căutare”, se va deschide un panou de setări unde puteți selecta regiunea, limba și cât timp să căutați informații.

Acum știi ce motoare de căutare există pe Internet, le-ai văzut și pe cele mai populare dintre ele, iar acum, înarmat cu informații, îți poți construi conexiunile și interacțiunea cu motoarele de căutare.

Asta e tot pentru azi. Cum iti place articolul?

Toate pentru moment.

Vă sfătuiesc să actualizați blogul pentru a nu rata ultimele noutăți.

Ekaterina Kalmykova

În ultimii ani, serviciile Google și Yandex au intrat ferm în viața noastră. În acest sens, mulți se întreabă probabil ce este un motor de căutare? În termeni simpli, acesta este un sistem software conceput pentru a căuta informații în lume rețeaua largă. Rezultatele sale sunt de obicei prezentate sub forma unei liste, adesea denumite pagini de rezultate ale căutării (SERP). Informațiile pot fi o combinație de pagini web, imagini și alte tipuri de fișiere. Unele motoare de căutare conțin și informații disponibile în baze de date sau directoare deschise.

Spre deosebire de directoarele web, care sunt acceptate doar de editorii nativi, motoarele de căutare conțin și informații în timp real prin rularea unui algoritm pe un crawler web.

Istoricul apariției

Motoarele de căutare în sine au apărut mai devreme decât World Wide Web - în decembrie 1990. Primul astfel de serviciu s-a numit Archie și a căutat conținutul fișierelor FTP prin comenzi.

Ce este un motor de căutare pe Internet? Până în septembrie 1993, World Wide Web a fost complet indexat manual. Exista o listă de servere web, editată de Tim Berners-Lee, care a fost găzduită pe serverul web CERN. Pe măsură ce tot mai multe servere au intrat online, serviciul de mai sus nu a putut ține pasul cu procesarea acestei cantități de informații.

Unul dintre primele motoare de căutare bazate pe căutare pe web a fost WebCrawler, care a fost lansat în 1994. Spre deosebire de predecesorii săi, a permis utilizatorilor să caute orice cuvânt pe orice pagină web. Acest algoritm a devenit de atunci standardul pentru toate motoarele de căutare majore. A fost și prima decizie cunoscută pe scară largă publicului. Tot în 1994 a fost lansat serviciul Lycos, care a devenit ulterior un proiect comercial major.

La scurt timp după, au apărut multe motoare de căutare, iar popularitatea lor a crescut semnificativ. Acestea includ Magellan, Excite, Infoseek, Inktomi, Northern Light și AltaVista. Yahoo! a fost una dintre cele mai populare moduri de a găsi pagini web de interes, dar algoritmul său de căutare a funcționat în propriul director web, nu în copiile cu text integral ale paginilor. Căutătorii de informații ar putea, de asemenea, să răsfoiască catalogul în loc să facă căutări prin cuvinte cheie.

Noua rundă de dezvoltare

Google a îmbrățișat ideea de a vinde interogări de căutare în 1998, începând cu o companie mică numită goto.com. Această mișcare a avut un impact semnificativ asupra afacerii SEO, care de-a lungul timpului a devenit una dintre cele mai profitabile afaceri de pe web.

În jurul anului 2000, motorul de căutare Google a devenit cunoscut pe scară largă. Compania a obținut rezultate mai bune pentru multe căutări cu o inovație numită PageRank. Acest algoritm iterativ evaluează paginile web pe baza legăturilor lor către alte site-uri și pagini, pe baza premisei că sursele bune sau dezirabile sunt adesea menționate de alții. Google a menținut, de asemenea, o interfață minimalistă pentru motorul său de căutare. Dimpotrivă, mulți dintre concurenți au construit un motor de căutare în portalul web. De fapt, Google a devenit atât de popular încât au apărut motoarele de înșelătorie precum Mystery Seeker. Astăzi, există multe versiuni regionale ale acestui serviciu, în special, motorul de căutare Google.ru, conceput pentru utilizatorii vorbitori de limbă rusă.

Cum funcționează aceste servicii?

Cum este clasarea și emiterea rezultatelor? Ce sunt motoarele de căutare în ceea ce privește algoritmul de acțiune? Ei își obțin informațiile prin accesarea cu crawlere de la site la site. Robotul sau „păianjenul” verifică numele fișierului robots.txt implicit adresat acestuia înainte de a trimite anumite informații pentru indexare. Aceasta se concentrează pe mulți factori, și anume titluri, conținutul paginii, JavaScript, foi de stil în cascadă (CSS), precum și standard Marcaj HTML conținut sau metadate în metaetichete HTML.

Indexarea înseamnă asocierea cuvintelor și a altor simboluri definibile găsite pe paginile web cu acestea nume de domeniiși câmpuri pe Bazat pe HTML. Asociațiile sunt create într-o bază de date publică disponibilă pentru interogări de căutare pe web. Solicitarea utilizatorului poate fi dintr-un singur cuvânt. Un index vă ajută să găsiți informații legate de o interogare cât mai repede posibil.

Unele dintre tehnicile de indexare și stocare în cache sunt secrete comerciale, în timp ce accesarea cu crawlere web este procesul simplu de vizitare a tuturor site-urilor într-o manieră sistematică.

Între vizitele de accesare cu crawlere, o versiune stocată în cache a paginii (o parte sau tot conținutul necesar pentru a-l afișa) stocată în memoria de lucru a motorului de căutare este rapid trimisă utilizatorului solicitant. Dacă vizita este întârziată, motorul de căutare poate acționa pur și simplu ca un proxy web. În acest caz, pagina poate diferi de indecșii de căutare. Sursa stocată în cache arată versiunea ale cărei cuvinte au fost indexate, deci poate fi utilă în cazul în care pagina reală a fost pierdută.

Arhitectură la nivel înalt

De obicei, un utilizator introduce o interogare într-un motor de căutare sub forma mai multor cuvinte cheie. Indexul are deja numele site-urilor care conțin aceste cuvinte cheie și sunt afișate instantaneu. Adevărata sarcină de lucru este crearea de pagini web care sunt o listă cu rezultatele căutării. Fiecare pagină din întreaga listă trebuie să fie clasată în funcție de informațiile din indexuri.

În acest caz, elementul superior al rezultatului necesită căutarea, reconstruirea și marcarea fragmentelor care arată contextul din cuvintele cheie potrivite. Aceasta este doar o parte a procesării fiecărei pagini web din rezultatele căutării, iar paginile ulterioare (lângă ea) necesită cea mai mare parte a acestei post-procesare.

Dincolo de simpla căutare a cuvintelor cheie, motoarele de căutare oferă propriile GUI sau operatori bazați pe comandă și opțiuni de căutare pentru rafinarea rezultatelor.

Ele oferă utilizatorului controalele necesare cu o buclă părere, prin filtrarea si ponderarea la rafinarea datelor pe care le cautati, tinand cont de paginile initiale ale primelor rezultate de cautare. De exemplu, din 2007, Google.com a făcut posibilă filtrarea listei rezultate după dată făcând clic pe „Afișați instrumentele de căutare” în coloana din stânga a paginii originale cu rezultate, apoi selectând intervalul de date dorit.

Variația cererilor

Majoritatea motoarelor de căutare acceptă utilizarea operatori logiciȘI, SAU și NU pentru a ajuta utilizatorii finali să perfecționeze interogarea. Unii operatori sunt pentru literali, care permit utilizatorului să rafinați și să extindă termenii de căutare. Robotul caută cuvinte sau expresii în același mod în care caută comenzile introduse. Unele motoare de căutare oferă o funcție de căutare avansată care permite utilizatorilor să determine distanța dintre cuvintele cheie.

Există, de asemenea, căutarea bazată pe concept, în care cercetarea implică utilizarea analizei statistice pe paginile care conțin cuvintele sau expresiile pe care le cauți. În plus, interogările în limbaj natural permit utilizatorului să introducă o întrebare în aceeași formă în care ar adresa-o unei persoane (cel mai tipic exemplu este ask.com).

Utilitatea unui motor de căutare depinde de relevanța setului de rezultate pe care îl returnează. Ar putea fi milioane de pagini web care conțin un anumit cuvânt sau expresie, dar unele dintre ele pot fi mai relevante, populare sau mai autoritare decât altele. Majoritatea motoarelor de căutare folosesc metode de clasare pentru a oferi cele mai bune rezultate.

Modul în care motorul de căutare decide care pagini sunt cele mai potrivite pentru interogare și în ce ordine ar trebui să fie afișate sursele găsite, variază foarte mult de la un robot la altul. Aceste practici se schimbă, de asemenea, în timp, pe măsură ce utilizarea internetului se schimbă și se dezvoltă noile tehnologii.

Ce este un motor de căutare: soiuri

Există două tipuri principale de motoare de căutare. Primul este un sistem de cuvinte cheie predefinite și ordonate ierarhic cu care oamenii l-au programat masiv. Al doilea este un sistem care generează un „index inversat” prin analizarea textelor găsite.

Majoritatea motoarelor de căutare sunt servicii comerciale susținute de venituri din reclame și, astfel, unele dintre ele permit agenților de publicitate să se claseze în rezultatele afișate contra unei taxe. Serviciile care nu acceptă bani pentru clasare câștigă bani prin difuzarea de anunțuri contextuale lângă site-urile afișate. Până în prezent, promovarea în motoarele de căutare este unul dintre cele mai profitabile câștiguri din rețea.

Ce servicii sunt cele mai comune?

Google este cel mai popular motor de căutare din lume, cu o cotă de piață de 80,52% în martie 2017.

Google - 80,52%
Bing - 6,92%
Baidu - 5,94%
Yahoo! - 5,35%

Motoare de căutare în Rusia și Asia de Est

În Rusia și în unele țări din Asia de Est, Google nu este cel mai popular serviciu. Dintre utilizatorii ruși, motorul de căutare Yandex este lider în popularitate (61,9%) față de Google (28,3%). În China, Baidu este cel mai popular serviciu. Portalul de căutare din Coreea de Sud - Naver este folosit pentru 70% la sută din căutările online din țară. De asemenea, Yahoo! în Japonia și Taiwan este cel mai popular instrument pentru găsirea datelor potrivite.

Alte motoare de căutare rusești binecunoscute sunt Mail și Rambler. Odată cu începutul dezvoltării Runetului, ei au fost foarte populari, dar acum și-au pierdut pozițiile.

Limitări și criterii de căutare

În timp ce motoarele de căutare sunt programate să clasifice site-urile web pe baza unui anumit grad de popularitate și relevanță, cercetarea empirică indică diferite criterii politice, economice și sociale pentru selectarea informațiilor pe care le furnizează. Aceste prejudecăți pot fi un rezultat direct al proceselor economice (de exemplu, companiile care promovează un motor de căutare pot deveni, de asemenea, mai populare în rezultatele căutării organice) și politice (de exemplu, eliminarea rezultatelor căutării pentru a respecta legile locale). De exemplu, Google nu va afișa unele site-uri neonaziste din Franța și Germania, unde negarea Holocaustului este ilegală.

Motoare de căutare creștine, islamice și evreiești

Creșterea globală a internetului și a media electronică în lumea musulmană în ultimul deceniu i-a determinat pe adepții islamici din Orientul Mijlociu și subcontinentul asiatic să încerce să-și creeze propriile motoare de căutare și portaluri filtrate care să permită utilizatorilor să efectueze căutări sigure.

Astfel de servicii conțin filtre care clasifică în continuare site-urile web ca „halal” sau „haram”, pe baza interpretării moderne de experți a „Legii Islamului”.

Portalul ImHalal a fost online în septembrie 2011 și Halalgoogling în iulie 2013. Ei folosesc filtre haram bazate pe algoritmi de la Google și Bing.

Alte motoare de căutare axate pe religie sunt Jewgle (versiunea evreiască a Google) și Christian SeekFind.org. Ei filtrează site-urile care neagă sau disprețuiesc credința lor.

Ce este

DuckDuckGo este un motor de căutare open source destul de cunoscut. Serverele sunt situate în SUA. Pe lângă propriul robot, motorul de căutare folosește rezultatele din alte surse: Yahoo, Bing, Wikipedia.

Cu atât mai bine

DuckDuckGo se poziționează drept cea mai bună căutare de confidențialitate și confidențialitate. Sistemul nu colectează date despre utilizator, nu stochează jurnalele (fără istoric de căutare), utilizarea cookie-urilor este cât se poate de limitată.

DuckDuckGo nu colectează și nu partajează informații personale de la utilizatori. Aceasta este politica noastră de confidențialitate.
Gabriel Weinberg, fondatorul DuckDuckGo

De ce ai nevoie de asta

Toate motoarele de căutare majore încearcă să personalizeze rezultatele căutării pe baza datelor despre persoana din fața monitorului. Acest fenomen se numește „bulă de filtrare”: utilizatorul vede doar acele rezultate care sunt în concordanță cu preferințele sale sau pe care sistemul le consideră ca atare.

Formează o imagine obiectivă care nu depinde de comportamentul tău trecut pe Web și elimină tematica reclame googleși „Yandex”, pe baza solicitărilor dumneavoastră. Cu ajutorul DuckDuckGo, este ușor să cauți informații în limbi străine, în timp ce Google și Yandex preferă site-urile în limba rusă în mod implicit, chiar dacă interogarea este introdusă într-o altă limbă.

Ce este

not Evil este un sistem care caută în rețeaua Tor anonimă. Pentru a-l folosi, trebuie să mergeți la această rețea, de exemplu, lansând un .

not Evil nu este singurul motor de căutare de acest gen. Există LOOK (căutare implicită în browserul Tor, accesibil de pe internetul obișnuit) sau TORCH (unul dintre cele mai vechi motoare de căutare din rețeaua Tor) și altele. Ne-am hotărât pe not Evil din cauza aluziei inconfundabile la Google (doar uitați-vă la pagina de pornire).

Cu atât mai bine

El caută unde Google, Yandex și alte motoare de căutare nu au acces în principiu.

De ce ai nevoie de asta

Există multe resurse în rețeaua Tor care nu pot fi găsite pe internetul care respectă legea. Iar numărul acestora va crește pe măsură ce controlul autorităților asupra conținutului Web-ului se va înăspri. Tor este un fel de rețea din Web cu rețelele sale sociale, trackere de torrent, media, piețe, bloguri, biblioteci și așa mai departe.

3. YaCy

Ce este

YaCy este un motor de căutare descentralizat care funcționează pe principiul rețelelor P2P. Fiecare computer pe care este instalat modulul software principal scanează internetul pe cont propriu, adică este un analog al unui robot de căutare. Rezultatele obținute sunt colectate într-o bază de date comună, care este utilizată de toți participanții YaCy.

Cu atât mai bine

Este dificil de spus aici dacă acest lucru este mai bun sau mai rău, deoarece YaCy este o abordare complet diferită a organizării căutării. Lipsa unei singure companii de server și proprietar face ca rezultatele să fie complet independente de preferințele oricui. Autonomia fiecărui nod exclude cenzura. YaCy este capabil să caute în deep web și în rețele publice neindexate.

De ce ai nevoie de asta

Dacă sunteți un susținător al software-ului open source și al unui internet gratuit care nu este influențat de agențiile guvernamentale și de marile corporații, atunci YaCy este alegerea dvs. Poate fi folosit și pentru a organiza o căutare în cadrul unei companii sau altul rețea offline. Și deși YaCy nu este foarte util în viața de zi cu zi, este o alternativă demnă la Google în ceea ce privește procesul de căutare.

4. Pipl

Ce este

Pipl este un sistem conceput pentru a căuta informații despre o anumită persoană.

Cu atât mai bine

Autorii lui Pipl susțin că algoritmii lor specializați caută mai eficient decât motoarele de căutare „obișnuite”. În special, sunt prioritare profilurile din rețelele de socializare, comentariile, listele de membri și diverse baze de date în care sunt publicate informații despre persoane, cum ar fi bazele de date cu hotărâri judecătorești. Conducerea lui Pipl în acest domeniu este confirmată de Lifehacker.com, TechCrunch și alte publicații.

De ce ai nevoie de asta

Dacă aveți nevoie să găsiți informații despre o persoană care locuiește în SUA, atunci Pipl va fi mult mai eficient decât Google. Bazele de date ale tribunalelor ruse, aparent, sunt inaccesibile motorului de căutare. Prin urmare, el nu se descurcă atât de bine cu cetățenii Rusiei.

Ce este

FindSounds este un alt motor de căutare specializat. Caută în surse deschise diverse sunete: casă, natură, mașini, oameni și așa mai departe. Serviciul nu acceptă solicitări în limba rusă, dar există o listă impresionantă de etichete în limba rusă pe care le puteți căuta.

Cu atât mai bine

În emiterea doar de sunete și nimic mai mult. În setări puteți seta formatul dorit și calitatea sunetului. Toate sunetele găsite sunt disponibile pentru descărcare. Există o căutare de modele.

De ce ai nevoie de asta

Dacă trebuie să găsiți rapid sunetul unei împușcături de muschetă, lovitura unei ciocănitoare care suge sau strigătul lui Homer Simpson, atunci acest serviciu este pentru dvs. Și am ales acest lucru numai din interogările disponibile în limba rusă. Pe limba engleza spectrul este și mai larg.

Serios, un serviciu specializat presupune un public specializat. Dar îți va fi util și ție?

Ce este

Wolfram|Alpha este un motor de căutare computațional. În loc de link-uri către articole care conțin cuvinte cheie, oferă un răspuns gata făcut la cererea utilizatorului. De exemplu, dacă introduceți în formularul de căutare „comparați populația din New York și San Francisco” în engleză, atunci Wolfram|Alpha va afișa imediat tabele și grafice cu o comparație.

Cu atât mai bine

Acest serviciu este mai bun decât altele pentru a găsi fapte și a calcula date. Wolfram|Alpha colectează și organizează cunoștințele disponibile pe Web din diverse domenii, inclusiv știință, cultură și divertisment. Dacă această bază de date conține un răspuns gata la o interogare de căutare, sistemul îl arată, dacă nu, calculează și afișează rezultatul. În acest caz, utilizatorul vede doar și nimic mai mult.

De ce ai nevoie de asta

Dacă sunteți, de exemplu, student, analist, jurnalist sau cercetător, puteți utiliza Wolfram|Alpha pentru a găsi și calcula date legate de activitățile dvs. Serviciul nu înțelege toate solicitările, dar evoluează constant și devine mai inteligent.

Ce este

Motorul de metacăutare Dogpile afișează o casetă combinată de rezultate de la rezultatele cautarii Google, Yahoo și alte sisteme populare.

Cu atât mai bine

În primul rând, Dogpile afișează mai puține anunțuri. În al doilea rând, serviciul folosește un algoritm special pentru a găsi și afișa cele mai bune rezultate din diferite motoare de căutare. Potrivit dezvoltatorilor Dogpile, sistemul lor generează cea mai completă problemă de pe întregul Internet.

De ce ai nevoie de asta

Dacă nu puteți găsi informații pe Google sau pe alt motor de căutare standard, căutați-le în mai multe motoare de căutare simultan folosind Dogpile.

Ce este

BoardReader este un sistem de căutare de text pentru forumuri, servicii de întrebări și răspunsuri și alte comunități.

Cu atât mai bine

Serviciul vă permite să restrângeți câmpul de căutare la site-urile sociale. Datorită filtrelor speciale, puteți găsi rapid postări și comentarii care corespund criteriilor dvs.: limbă, data publicării și numele site-ului.

De ce ai nevoie de asta

BoardReader poate fi util pentru specialiștii în PR și pentru alți profesioniști media care sunt interesați de opinia mass-media asupra anumitor probleme.

In cele din urma

Viața motoarelor de căutare alternative este adesea trecătoare. Lifehacker l-a întrebat pe fostul CEO al filialei ucrainene a companiei Yandex, Sergey Petrenko, despre perspectivele pe termen lung pentru astfel de proiecte.

Serghei Petrenko

Fost CEO al Yandex.Ukraine.

În ceea ce privește soarta motoarelor de căutare alternative, este simplu: să fie proiecte foarte de nișă cu un public restrâns, deci, fără perspective comerciale clare, sau, dimpotrivă, cu claritatea deplină a absenței lor.

Dacă te uiți la exemplele din articol, poți vedea că astfel de motoare de căutare fie sunt specializate într-o nișă îngustă, dar solicitată, care, poate doar până acum, nu a crescut suficient pentru a fi vizibilă pe radarele Google sau Yandex, sau testează o ipoteză originală în clasament, care nu este încă aplicabilă în căutarea convențională.

De exemplu, dacă o căutare pe Tor se dovedește brusc a fi solicitată, adică cel puțin un procent din publicul Google are nevoie de rezultatele de acolo, atunci, desigur, motoarele de căutare obișnuite vor începe să rezolve problema cum să găsiți-le și arătați-le utilizatorului. Dacă comportamentul publicului arată că o proporție semnificativă de utilizatori într-un număr semnificativ de interogări par a fi rezultate mai relevante, date fără a lua în considerare factorii care depind de utilizator, atunci Yandex sau Google vor începe să dea astfel de rezultate.

„A fi mai bun” în contextul acestui articol nu înseamnă „a fi mai bun în toate”. Da, în multe aspecte, eroii noștri sunt departe de Yandex (chiar departe de Bing). Dar fiecare dintre aceste servicii oferă utilizatorului ceva ce giganții industriei de căutare nu pot oferi. Cu siguranță cunoști și tu proiecte similare. Distribuie cu noi - haideți să discutăm.

YouTube enciclopedic

Subtitrări

Istorie

Căutați informații în rusă

Cum funcționează motorul de căutare

Tipuri de motoare de căutare

Piața motoarelor de căutare

Asia

Rusia și motoarele de căutare în limba rusă

Date cantitative ale motorului de căutare Google

Motoare de căutare care țin cont de interdicțiile religioase

Rezultate personale și bule de filtrare

Prejudecata motorului de căutare

Vezi si

Note

Literatură

Ce este un motor de căutare?

Munca motoarelor de căutare

Componentele motorului de căutare

Tipuri de motoare de căutare

Un pic de istorie

Care sunt cele mai populare motoare de căutare în acest moment?

Istoricul apariției

Noua rundă de dezvoltare

Cum funcționează aceste servicii?

Arhitectură la nivel înalt

Variația cererilor

Ce este un motor de căutare: soiuri

Ce servicii sunt cele mai comune?

Motoare de căutare în Rusia și Asia de Est

Limitări și criterii de căutare

Motoare de căutare creștine, islamice și evreiești

Ce este

Cu atât mai bine

De ce ai nevoie de asta

Ce este

Cu atât mai bine

De ce ai nevoie de asta

3. YaCy

Ce este

Cu atât mai bine

De ce ai nevoie de asta

4. Pipl

Ce este

Cu atât mai bine

De ce ai nevoie de asta

Ce este

Cu atât mai bine

De ce ai nevoie de asta

Ce este

Cu atât mai bine

De ce ai nevoie de asta

Ce este

Cu atât mai bine

De ce ai nevoie de asta

Ce este

Cu atât mai bine

De ce ai nevoie de asta

In cele din urma

Continut Asemanator: