Czym jest wyszukiwarka i jak działa. Wyszukiwarki ogólnego przeznaczenia Co to jest wyszukiwarka

21.11.2017

Jakikolwiek jest problem nowoczesny mężczyzna nie szuka odpowiedzi w książkach. Szuka ich w Internecie. Co więcej, nie musisz znać adresu strony, na której znajdują się potrzebne informacje. Takich witryn są miliony, a wyszukiwarka pomaga znaleźć właściwą.

W ogromie naszego rodzimego Internetu dwie najpopularniejsze wyszukiwarki to Google i Yandex.

Czy kiedykolwiek zastanawiałeś się, jak działa wyszukiwarka? Jak ona rozumie, którą witrynę pokazać, które z milionów zasobów zawiera dokładnie odpowiedź na Twoje żądanie?

Co to jest wyszukiwarka?

Wyszukiwarka to ogromna baza dokumentów internetowych, która jest stale aktualizowana i rozszerzana. Każda wyszukiwarka ma pająki wyszukiwania, roboty to specjalne boty, które omijają witryny, indeksują zamieszczone na nich treści, a następnie klasyfikują je według stopnia ich jakości i trafności dla zapytań użytkowników.

Wyszukiwarki pracują, aby każdy mógł znaleźć dowolne informacje. Dlatego starają się pokazać przede wszystkim te dokumenty internetowe, które mają najbardziej szczegółową odpowiedź na zadane pytanie.

W swej istocie wyszukiwarka jest katalogiem stron, katalogiem, którego główną funkcją jest wyszukiwanie informacji właśnie w tym katalogu.

Jak napisałem powyżej, mamy dwa popularne systemy - Google (na całym świecie) i Yandex (segment rosyjskojęzyczny). Ale są też takie systemy jak Rambler, Yahoo, Bing, Mail.Ru i inne. Zasada działania jest dla nich podobna, różnią się jedynie algorytmy rankingu (a nawet to nie ma większego znaczenia).

Jak działa wyszukiwarka w Internecie

Zasada działania wyszukiwarek jest bardzo skomplikowana, ale postaram się wyjaśnić w prostych słowach.

Robot wyszukiwania (pająk) przemierza strony witryny, pobiera ich zawartość i wyodrębnia linki. Następnie rozpoczyna pracę indeksator - jest to program, który analizuje wszystkie materiały pobierane przez pająki, w oparciu o własne algorytmy pracy.

W ten sposób powstaje baza danych wyszukiwarki, w której przechowywane są wszystkie dokumenty przetwarzane przez algorytm.

Zapytanie jest przetwarzane w następujący sposób:

  • zapytanie wprowadzone przez użytkownika jest analizowane;
  • wyniki analiz przekazywane są do specjalnego modułu rankingowego;
  • przetwarzane są dane wszystkich dokumentów, wybierane są najbardziej odpowiednie dla wprowadzonego zapytania;
  • generowany jest snippet - tytuł, opis, słowa z zapytania są wyróżnione pogrubieniem;
  • wyniki wyszukiwania prezentowane są użytkownikowi w postaci SERP (strony wyszukiwania).

Zasady wyszukiwarki

Głównym zadaniem każdej wyszukiwarki jest dostarczanie użytkownikowi na żądanie najbardziej przydatnych i dokładnych informacji. Ponieważ robot wyszukiwania stale omija witryny. Natychmiast po uruchomieniu, zgodnie z pewną rutyną, pająk przychodzi do Ciebie, omija kilka stron, po czym są indeksowane.

Zasada działania wyszukiwarek opiera się na dwóch głównych etapach:

  • indeksowanie stron gromadzących dane;
  • przypisanie indeksu, dzięki któremu system będzie mógł szybko przeszukiwać zawartość tej strony.

Po zindeksowaniu strony internetowej pojawi się ona już w wynikach wyszukiwania dla określonego zapytania. Możesz sprawdzić, czy nowa strona została zaindeksowana przez wyszukiwarkę za pomocą narzędzi dla webmasterów. Na przykład w Yandex.Webmaster możesz od razu zobaczyć, które strony i kiedy zostały zaindeksowane, a które wypadły z indeksu iz jakiego powodu.

Ale to, na której stronie się znajdzie, zależy od stopnia zaindeksowania i jakości jej treści. Jeśli Twoja strona daje najdokładniejszą odpowiedź na zapytanie, będzie to przede wszystkim inne.

Zasady rankingu witryn w wyszukiwarkach

Zorientowaliśmy się, na jakiej zasadzie działają roboty wyszukujące. Ale jak oceniane są witryny?

Ranking opiera się na dwóch głównych „filarach” – zawartości tekstowej strony oraz czynnikach pozatekstowych.

Treść tekstu to zawartość strony. Im jest pełniejszy, tym dokładniejszy, im bardziej pasuje do zapytania, tym wyżej strona będzie w wynikach wyszukiwania. Oprócz samego tekstu wyszukiwarka zwraca uwagę na wypełnienie tagów title (tytuł strony), description (opis strony), H1 (tytuł tekstu).

Czynniki nietekstowe Są to linki wewnętrzne i linki zewnętrzne. Najważniejsze jest to, że jeśli strona jest ciekawa, użyteczna, oznacza to, że linkują do niej inne zasoby tematyczne. A im więcej takich linków, tym bardziej autorytatywny zasób.

Ale to są najbardziej podstawowe zasady, bardzo krótko. Zagłębmy się trochę głębiej.

Głównyczynniki rankingu strony internetowej

Istnieje wiele czynników, które wpływają na ranking witryny. Najważniejsze z nich to:

1 wWewnętrzne czynniki rankingu witryny

To jest tekst na stronie i jego projekt - podtytuły, podkreślające ważne punkty w tekście. W tym przypadku zastosowanie ma również linkowanie wewnętrzne. Istotne są również elementy wizualne: wykorzystanie zdjęć, zdjęć, filmów, wykresów. Ważna jest również jakość samego tekstu, jego treść.

2. Czynniki rankingu witryn zewnętrznych które decydują o jego popularności. Są to te same linki zewnętrzne, które prowadzą do Twojej witryny z innych zasobów. Określana jest nie tylko liczba tych stron, ale ich jakość (pożądane jest, aby strony były podobne do Twojej), a także ogólna jakość profilu linków (jak szybko pojawiły się te linki, naturalnie lub poprzez zakupy na giełdzie) .

Na podstawie powyższego można wyciągnąć jeden wniosek: Wyszukiwarki starają się działać w taki sposób, aby pokazać użytkownikowi te strony, które dają najbardziej kompletną odpowiedź na jego prośbę i zdobyły już pewien autorytet. W tym przypadku brane są pod uwagę różne czynniki: zawartość witryny i jej ustawienia oraz stosunek użytkowników do niej. Strona, która jest dobra pod każdym względem, z pewnością zajmie wysokie miejsce w SERP.

Architektura wyszukiwarki zazwyczaj obejmuje:

Encyklopedyczny YouTube

    1 / 5

    ✪ Lekcja 3: Jak działa wyszukiwarka. Wprowadzenie do SEO

    ✪ Wyszukiwarka od wewnątrz

    ✪ Shodan – Czarny Google

    ✪ Wyszukiwarka Cheburashka zastąpi Google i Yandex w Rosji

    ✪ Lekcja 1 – Jak działa wyszukiwarka

    Napisy na filmie obcojęzycznym

Historia

Chronologia
Rok System Wydarzenie
1993 Katalog W3?! początek
Aliweb początek
Stacja skokowa początek
1994 robot sieciowy początek
wyszukiwanie informacji początek
Lycos początek
1995 AltaVista początek
Daum Baza
otwarty tekst indeks internetowy początek
Magellana początek
Podniecać początek
SAPO początek
Wieśniak! początek
1996 Dogpil początek
Inktomi Baza
Wędrowiec Baza
hotbot Baza
Zapytaj Jeeves Baza
1997 Północne światło początek
Yandex początek
1998 Google początek
1999 AlltheWeb początek
GenieKnows Baza
Naver początek
Teoma Baza
Vivisimo Baza
2000 Baidu Baza
Exalead Baza
2003 info.com początek
2004 Wieśniak! Szukaj Ostateczne uruchomienie
A9.pl początek
sogou początek
2005 MSN Szukaj Ostateczne uruchomienie
Ask.com początek
Nigma początek
dobre wyszukiwanie początek
Poszukaj mnie Baza
2006 wikiseek Baza
Quaero Baza
Na żywo Wyszukiwanie początek
Czacza Uruchom (beta)
Guruji.com Uruchom (beta)
2007 wikiseek początek
Sproose początek
Wikia Wyszukiwarka początek
blackle.com początek
2008 KaczkaKaczkaGo początek
Tooby początek
Pikolator początek
Viewzi początek
Cuil początek
Boogami początek
SkokRyba Uruchom (beta)
Forestle początek
VADLO początek
zestaw zasilający początek
2009 bing początek
KAZ.KZ początek
Yebol Uruchom (beta)
Mugurdy zamknięcie
Zwiadowca początek
2010 Cuil zamknięcie
Blekko Uruchom (beta)
Viewzi zamknięcie
2012 WAZZUB początek
2014 Satelita Uruchom (beta)

Na wczesnym etapie rozwoju Internetu Tim Berners-Lee utrzymywał listę serwerów internetowych zamieszczoną na stronie CERN. Stron było coraz więcej, a ręczne prowadzenie takiej listy stawało się coraz trudniejsze. Witryna NCSA posiadała dedykowaną sekcję „Co nowego!”. (ang. Co nowego!), gdzie publikowali linki do nowych stron.

Pierwszym programem komputerowym do przeszukiwania Internetu był: Archie(archie angielskie - archiwum bez litery "c"). Została stworzona w 1990 roku przez Alana Emtage, Billa Heelana i J. Petera Deutscha, studentów informatyki na Uniwersytecie McGill w Montrealu. Program pobierał listy wszystkich plików ze wszystkich dostępnych anonimowych serwerów FTP i zbudował bazę danych, którą można przeszukiwać według nazw plików. Jednak program Archiego nie indeksował zawartości tych plików, ponieważ ilość danych była tak mała, że ​​wszystko można było łatwo znaleźć ręcznie.

Rozwój i dystrybucja protokół sieciowy Gopher, wynaleziony w 1991 roku przez Marka McCahilla na University of Minnesota, doprowadził do stworzenia dwóch nowych programów wyszukiwania: Weronika i Jughead. Podobnie jak Archie, wyszukiwali nazwy plików i nagłówki przechowywane w systemach indeksów Gophera. Weronika (angielski) Bardzo łatwy, zorientowany na gryzonie indeks sieciowy do skomputeryzowanych archiwów) umożliwiło wyszukiwanie słów kluczowych dla większości nagłówków menu Gopher na wszystkich listach Gopher. Program Jughead Jonzy's Universal Gopher Hierarchia wykopaliska i ekspozycja) pobrał informacje o menu z niektórych serwerów Gopher. Chociaż nazwa wyszukiwarki Archiego nie była związana z serią komiksów „Archie”, niemniej jednak Veronica i Jughead są postaciami w tych komiksach.

Do lata 1993 roku nie istniał jeszcze jeden system przeszukiwania sieci, chociaż wiele wyspecjalizowanych katalogów było utrzymywanych ręcznie. Oscar Nierstrasz z Uniwersytetu Genewskiego napisał serię skryptów Perla, które okresowo kopiowały te strony i przepisywały je do standardowego formatu. Stało się to podstawą dla Katalog W3?!, pierwsza prymitywna wyszukiwarka internetowa, uruchomiona 2 września 1993 roku.

Prawdopodobnie pierwszą wyszukiwarką napisaną w Perlu była „World Wide Web Wanderer”, bot stworzony przez Matthew Graya z czerwca 1993 roku. Ten robot stworzył indeks wyszukiwania „Wandex”. Zadaniem robota Wędrowca było zmierzenie rozmiaru sieci WWW i znalezienie wszystkich stron internetowych zawierających słowa z zapytania. W 1993 roku pojawiła się druga wyszukiwarka Aliweb. Aliweb nie korzystał z robota indeksującego, ale zamiast tego czekał na powiadomienia od administratorów witryn o obecności pliku indeksu w określonym formacie na ich witrynach.

Stacja skokowa, utworzony w grudniu 1993 r. przez Jonathana Fletchera, przeszukiwał i indeksował strony internetowe za pomocą robota oraz używał formularza internetowego jako interfejsu do formułowania zapytań wyszukiwania. Była to pierwsza wyszukiwarka internetowa, która połączyła trzy podstawowe funkcje wyszukiwarki (weryfikacja, indeksowanie i rzeczywiste wyszukiwanie). Ze względu na ograniczone zasoby ówczesnych komputerów indeksowanie, a tym samym wyszukiwanie, ograniczało się tylko do tytułów i tytułów stron internetowych znalezionych przez robota indeksującego.

Wyszukiwarki brały udział w bańce Dot-com pod koniec lat dziewięćdziesiątych. Kilka firm weszło na rynek w spektakularny sposób, generując rekordowe zyski podczas swoich IPO. Niektórzy porzucili rynek wyszukiwarek open source i pracują tylko z sektor przedsiębiorstw, na przykład, Północne światło.

Google podjęło ideę sprzedaży słów kluczowych w 1998 roku, kiedy była małą firmą prowadzącą wyszukiwarkę pod adresem goto.com. Ten ruch oznaczał przejście dla wyszukiwarek z konkurowania ze sobą w jedno z najbardziej dochodowych przedsięwzięć biznesowych w Internecie. Wyszukiwarki zaczęły sprzedawać pierwsze miejsca w wynikach wyszukiwania poszczególnym firmom.

Wyszukiwarka Google zajmuje znaczącą pozycję od początku 2000 roku. Firma osiągnęła wysoką pozycję dzięki dobrym wynikom wyszukiwania z wykorzystaniem algorytmu PageRank. Algorytm został zaprezentowany publicznie w artykule „The Anatomy of Search Engine” napisanym przez Sergeya Brina i Larry'ego Page'a, założycieli Google. Ten iteracyjny algorytm klasyfikuje strony internetowe na podstawie szacunkowej liczby hiperłączy do strony internetowej, zakładając, że „dobre” i „ważne” strony otrzymują więcej linków niż inne. Interfejs Google jest zaprojektowany w spartańskim stylu, w którym nie ma nic zbędnego, w przeciwieństwie do wielu konkurentów, którzy wbudowali wyszukiwarkę w portal internetowy. Wyszukiwarka Google stała się tak popularna, że ​​pojawili się jej naśladowcy, np. Poszukiwacz tajemnic(tajna wyszukiwarka).

Szukaj informacji w języku rosyjskim

W 1996 roku w wyszukiwarce Altavista wdrożono wyszukiwanie z uwzględnieniem rosyjskiej morfologii oraz uruchomiono oryginalne rosyjskie wyszukiwarki Rambler i Aport. 23 września 1997 r. otwarto wyszukiwarkę Yandex. 22 maja 2014 r. Rostelecom otworzył ogólnopolską wyszukiwarkę Sputnik, która w 2015 r. jest w fazie beta testów. 22 kwietnia 2015 r. został uruchomiony nowy serwis Sputnik. Dzieci specjalnie dla dzieci o podwyższonym bezpieczeństwie.

Dużą popularność zyskały metody analizy skupień i wyszukiwania metadanych. Spośród międzynarodowych maszyn tego typu najbardziej znany był: "Czasy" firm Vivisimo. W 2005 roku, przy wsparciu Moskiewskiego Uniwersytetu Państwowego, uruchomiono w Rosji wyszukiwarkę Nigma, która obsługuje automatyczne klastrowanie. W 2006 roku została otwarta rosyjska metamaszyna Quintura, oferująca wizualne grupowanie w formie chmury tagów. Nigma eksperymentowała również z wizualnym grupowaniem.

Jak działa wyszukiwarka

Główne elementy wyszukiwarki: robot wyszukiwania, indeksator, wyszukiwarka.

Z reguły systemy działają etapami. Najpierw przeszukiwacz pobiera treść, następnie indeksator generuje indeks z możliwością przeszukiwania, a na końcu przeszukiwacz udostępnia funkcję przeszukiwania zindeksowanych danych. Aby zaktualizować wyszukiwarkę, ten cykl indeksowania jest powtarzany.

Wyszukiwarki działają, przechowując informacje o wielu stronach internetowych, które uzyskują ze stron HTML. Robot wyszukiwania lub „pełzacz” (ang. Crawler) - program, który automatycznie śledzi wszystkie linki znalezione na stronie i podświetla je. Przeszukiwacz, w oparciu o linki lub w oparciu o predefiniowaną listę adresów, wyszukuje nowe dokumenty, które nie są jeszcze znane wyszukiwarce. Właściciel witryny może wykluczyć niektóre strony za pomocą pliku robots.txt , który może służyć do zapobiegania indeksowaniu plików, stron lub katalogów witryny.

Wyszukiwarka analizuje zawartość każdej strony w celu dalszego indeksowania. Słowa można wydobyć z tytułów, tekstu strony lub pól specjalnych - metatagów. Indeksator to moduł, który analizuje stronę, po podzieleniu jej na części, wykorzystując własne algorytmy leksykalne i morfologiczne. Wszystkie elementy strony internetowej są izolowane i analizowane oddzielnie. Dane strony sieci Web są przechowywane w bazie danych indeksów do wykorzystania w kolejnych żądaniach. Indeks pozwala szybko znaleźć informacje na żądanie użytkownika. Szereg wyszukiwarek, takich jak Google, przechowuje oryginalną stronę w całości lub w części, tzw. cache, a także różne informacje o stronie internetowej. Inne systemy systemowy AltaVista przechowuje każde słowo na każdej znalezionej stronie. Korzystanie z pamięci podręcznej pomaga przyspieszyć wydobywanie informacji z już odwiedzonych stron. Strony w pamięci podręcznej zawsze zawierają tekst określony przez użytkownika w zapytaniu. Może to być przydatne, gdy strona internetowa została zaktualizowana, to znaczy nie zawiera już tekstu żądania użytkownika, a strona w pamięci podręcznej jest nadal stara. Sytuacja ta związana jest z utratą linków (inż. linkrot) i przyjazne dla użytkownika podejście (użyteczność) Google. Obejmuje to wysyłanie krótkich fragmentów tekstu z pamięci podręcznej zawierającej tekst zapytania. Obowiązuje zasada najmniejszego zaskoczenia, użytkownik zwykle spodziewa się zobaczyć wyszukiwane słowa w tekstach otrzymywanych stron ( oczekiwania użytkowników). Oprócz przyspieszenia wyszukiwania za pomocą stron w pamięci podręcznej, strony w pamięci podręcznej mogą zawierać informacje, które nie są już dostępne gdzie indziej.

Wyszukiwarka działa z plikami wyjściowymi otrzymanymi z indeksatora. Wyszukiwarka przyjmuje żądania użytkowników, przetwarza je za pomocą indeksu i zwraca wyniki wyszukiwania.

Gdy użytkownik wpisuje zapytanie do wyszukiwarki (zwykle przy użyciu słów kluczowych), system sprawdza jego indeks i zwraca listę najtrafniejszych stron internetowych (posortowaną według jakiegoś kryterium), zwykle z krótką adnotacją zawierającą tytuł dokumentu i czasami fragmenty tekstu. Indeks wyszukiwania jest budowany zgodnie ze specjalną techniką opartą na informacjach pobranych ze stron internetowych. Od 2007 Wyszukiwarka Google umożliwia wyszukiwanie na podstawie czasu, tworzenie żądanych dokumentów (wywołaj menu „Narzędzia wyszukiwania” i określ zakres czasowy). Większość wyszukiwarek obsługuje użycie operatorów logicznych AND, OR, NOT w zapytaniach, co pozwala uściślić lub rozszerzyć listę wyszukiwanych słów kluczowych. W takim przypadku system wyszuka słowa lub frazy dokładnie tak, jak zostały wprowadzone. Niektóre wyszukiwarki pozwalają przybliżone wyszukiwanie, w tym przypadku użytkownicy rozszerzają obszar wyszukiwania, określając odległość do słów kluczowych . Istnieje również wyszukiwanie koncepcyjne, który wykorzystuje analizę statystyczną użycia wyszukiwanych słów i fraz w tekstach stron internetowych. Systemy te umożliwiają tworzenie zapytań w języku naturalnym. Przykładem takiej wyszukiwarki jest strona ask com.

Przydatność wyszukiwarki zależy od trafności znalezionych stron. Chociaż miliony stron internetowych mogą zawierać słowo lub frazę, niektóre mogą być bardziej trafne, popularne lub autorytatywne niż inne. Większość wyszukiwarek korzysta z metod rankingowych, aby umieścić „najlepsze” wyniki na szczycie listy. Wyszukiwarki decydują, które strony są bardziej odpowiednie i w jakiej kolejności powinny być wyświetlane wyniki na różne sposoby. Metody wyszukiwania, takie jak sam Internet, zmieniają się w czasie. W ten sposób pojawiły się dwa główne typy wyszukiwarek: systemy predefiniowanych i hierarchicznie uporządkowanych słów kluczowych oraz systemy, w których na podstawie analizy tekstu generowany jest indeks odwrócony.

Większość wyszukiwarek to firmy komercyjne, które zarabiają na reklamach, w niektórych wyszukiwarkach można za opłatą wykupić najwyższe pozycje w wynikach wyszukiwania dla danych słów kluczowych. Te wyszukiwarki, które nie pobierają opłat za kolejność wyników, zarabiają na reklamach kontekstowych, podczas gdy komunikaty reklamowe odpowiadają żądaniu użytkownika. Takie reklamy są wyświetlane na stronie z listą wyników wyszukiwania, a wyszukiwarki zarabiają za każdym razem, gdy użytkownik kliknie w komunikaty reklamowe.

Typy wyszukiwarek

Istnieją cztery rodzaje wyszukiwarek: robotyka, kierowana przez człowieka, hybryda i metasystemy.

  • systemy wykorzystujące roboty wyszukiwania
Składają się z trzech części: robota ("bot", "robot" lub "pająk"), indeksu i oprogramowania wyszukiwarki. Robot indeksujący jest potrzebny do ominięcia sieci i tworzenia list stron internetowych. Indeks - duże archiwum kopie stron internetowych. Cel oprogramowanie- Oceń wyniki wyszukiwania. Dzięki temu, że crawler w tym mechanizmie stale eksploruje sieć, informacje są bardziej aktualne. Większość nowoczesnych wyszukiwarek to systemy tego typu.
  • systemy kontrolowane przez człowieka (katalogi zasobów)
Te wyszukiwarki uzyskują listy stron internetowych. Katalog zawiera adres, tytuł i krótki opis strony. Katalog zasobów wyszukuje wyniki tylko z opisów stron przesłanych do niego przez webmasterów. Zaletą katalogów jest to, że wszystkie zasoby są sprawdzane ręcznie, dzięki czemu jakość treści będzie lepsza w porównaniu z wynikami uzyskiwanymi automatycznie przez system pierwszego typu. Ale jest też wada – aktualizacja tych katalogów odbywa się ręcznie i może znacznie odstawać od rzeczywistego stanu rzeczy. Rankingi stron nie mogą się natychmiast zmienić. Przykładami takich systemów są Katalog Yahoo, dmoz i Galaxy.
  • systemy hybrydowe
Wyszukiwarki takie jak Yahoo, Google, MSN łączą w sobie funkcje systemów wykorzystujących roboty wyszukiwania i systemy kontrolowane przez człowieka.
  • meta-systemy
Wyszukiwarki metasearch łączą i klasyfikują wyniki kilku wyszukiwarek jednocześnie. Te wyszukiwarki były przydatne, gdy każda wyszukiwarka miała unikalny indeks, a wyszukiwarki były mniej „inteligentne”. Ponieważ wyszukiwanie poprawiło się teraz tak bardzo, zapotrzebowanie na nie zmalało. Przykłady: MetaCrawler i wyszukiwanie MSN.

Rynek wyszukiwarek

Google to najpopularniejsza wyszukiwarka na świecie z udziałem w rynku wynoszącym 68,69%. Bing zajmuje drugie miejsce, jego udział wynosi 12,26%.

Najpopularniejsze wyszukiwarki na świecie:

System wyszukiwania Udział w rynku w lipcu 2014 Udział w rynku w październiku 2014 Udział w rynku we wrześniu 2015
Google 68,69 % 58,01 % 69,24%
Baidu 17,17 % 29,06 % 6,48%
bing 6,22 % 8,01 % 12,26%
Wieśniak! 6,74 % 4,01 % 9,19%
AOL 0,13 % 0,21 % 1,11%
Podniecać 0,22 % 0,00 % 0,00 %
Zapytać się 0,13 % 0,10 % 0,24%

Azja

W krajach Azji Wschodniej i Rosji Google nie jest najpopularniejszą wyszukiwarką. Na przykład w Chinach bardziej popularne wyszukiwarka Soso?!.

W Korei Południowej z zastrzeżonego portalu wyszukiwania Naver korzysta około 70% Yahoo! Japonia i Yahoo! Tajwan to najpopularniejsze wyszukiwarki odpowiednio w Japonii i na Tajwanie.

Rosja i rosyjskojęzyczne wyszukiwarki

Według danych LiveInternet z czerwca 2015 r. dotyczących zasięgu zapytań w języku rosyjskim:

  • Wszystkie języki:
    • Wieśniak! (0,1%) oraz wyszukiwarki należące do tej firmy: Inktomi, AltaVista , Alltheweb
  • anglojęzyczne i międzynarodowe:
    • AskJeeves(mechanizm Teoma)
  • Rosyjskojęzyczne - większość "rosyjskojęzycznych" wyszukiwarek indeksuje i wyszukuje teksty w wielu językach - ukraińskim, białoruskim, angielskim, tatarskim i innych. Różnią się one od systemów „wszystkie języki”, które indeksują wszystkie dokumenty z rzędu, tym, że indeksują głównie zasoby zlokalizowane w strefach domen, w których dominuje język rosyjski, lub w inny sposób ograniczają swoje roboty do witryn w języku rosyjskim.

Niektóre wyszukiwarki korzystają z zewnętrznych algorytmów wyszukiwania.

Ilościowe dane wyszukiwarki Google

Liczba internautów i wyszukiwarek oraz wymagania użytkowników dla tych systemów stale rosną. Aby przyspieszyć wyszukiwanie potrzebnych informacji, główne wyszukiwarki zawierają: duża liczba serwery. Serwery są zwykle pogrupowane w centra serwerowe (centra danych). Popularne wyszukiwarki mają centra serwerowe rozsiane po całym świecie.

W październiku 2012 r. firma Google uruchomiła projekt Gdzie mieszka Internet, w ramach którego użytkownicy mają możliwość zapoznania się z centrami danych firmy.

O pracy centrów danych wyszukiwarek System Google wiadomo, co następuje:

  • Łączna moc wszystkich centrów danych Google na rok 2011 szacowana była na 220 MW.
  • Kiedy Google planował otworzyć nowy kompleks trzech budynków o powierzchni 6,5 miliona m² w Oregonie w 2008 r., Harper's Magazine oszacował, że tak duży kompleks zużywałby ponad 100 MW energii elektrycznej, co jest porównywalne ze zużyciem energii w 300-tysięcznym mieście. .
  • Szacunkowa liczba serwerów Google w 2012 roku to 1 000 000.
  • Wydatki Google na centra danych wyniosły 1,9 miliarda dolarów w 2006 roku i 2,4 miliarda dolarów w 2007 roku.

Rozmiar sieci World Wide Web zaindeksowanej przez Google w grudniu 2014 r. wynosi około 4,36 miliarda stron.

Wyszukiwarki uwzględniające zakazy religijne

Globalne rozprzestrzenianie się Internetu oraz rosnąca popularność urządzeń elektronicznych w świecie arabskim i muzułmańskim, w szczególności w krajach Bliskiego Wschodu i na subkontynencie indyjskim, przyczyniły się do rozwoju lokalnych wyszukiwarek uwzględniających tradycje islamskie. Takie wyszukiwarki zawierają specjalne filtry, które pomagają użytkownikom uniknąć dostępu do zabronionych stron, takich jak strony z pornografią, i pozwalają im korzystać tylko z tych stron, których treść nie jest sprzeczna z wiarą islamską. Krótko przed muzułmańskim miesiącem Ramadan, w lipcu 2013, świat został wprowadzony Googlowanie halal- system, który daje użytkownikom tylko halal "poprawne" linki, filtrując wyniki wyszukiwania otrzymane z innych wyszukiwarek, takich jak Google i Bing. Dwa lata wcześniej, we wrześniu 2011 roku, została uruchomiona wyszukiwarka I'mHalal, która ma służyć użytkownikom na Bliskim Wschodzie. Jednak ta wyszukiwarka musiała zostać wkrótce zamknięta, według właściciela, z powodu braku funduszy.

Brak inwestycji i powolne tempo dyfuzji technologii w świecie muzułmańskim zahamowały postęp i utrudniły sukces poważnej wyszukiwarki islamskiej. Niepowodzenie ogromnych inwestycji w muzułmańskie projekty internetowe dotyczące stylu życia, z których jednym było: Muxlim. Otrzymał miliony dolarów od inwestorów takich jak Rite Internet Ventures, a teraz – zgodnie z Ostatnia wiadomość z I'mHalal przed jego zamknięciem - wpada na wątpliwy pomysł, że „kolejny Facebook czy Google może pojawić się na Bliskim Wschodzie tylko wtedy, gdy wesprzesz naszą genialną młodzież”. Niemniej jednak islamscy eksperci internetowi od lat zajęci są definiowaniem, co jest zgodne z szariatem, a co nie, i klasyfikują strony internetowe jako „halal” lub „haram”. Wszystkie dawne i obecne islamskie wyszukiwarki to tylko specjalnie zaindeksowany zestaw danych lub są to główne wyszukiwarki, takie jak Google, Yahoo i Bing, z pewnego rodzaju systemem filtrowania używanym do uniemożliwienia użytkownikom dostępu do stron haraam, takich jak strony z nagością, LGBT, hazard i wszystko inne, co jest uważane za antyislamskie.

Wśród innych wyszukiwarek zorientowanych na religię powszechne są Jewogle, żydowska wersja Google i SeekFind.org, chrześcijańska witryna zawierająca filtry, które mają trzymać użytkowników z dala od treści, które mogą podważyć lub osłabić ich wiarę.

Twoje wyniki i bańki filtrujące

Wiele wyszukiwarek, takich jak Google i Bing, wykorzystuje algorytmy do selektywnego odgadywania, jakie informacje użytkownik chciałby zobaczyć na podstawie jego przeszłych działań w systemie. W rezultacie strony internetowe wyświetlają tylko te informacje, które są zgodne z dawnymi zainteresowaniami użytkownika. Ten efekt nazywa się „bańką filtrującą”.

Wszystko to prowadzi do tego, że użytkownicy otrzymują znacznie mniej informacji sprzecznych z ich punktem widzenia i zostają intelektualnie odizolowani we własnej „bańce informacyjnej”. Tak więc „efekt bańki” może mieć negatywne konsekwencje dla kształtowania się opinii obywatelskiej.

Stronniczość wyszukiwarek

Chociaż wyszukiwarki są zaprogramowane do rankingu stron internetowych w oparciu o kombinację ich popularności i trafności, w rzeczywistości badania eksperymentalne wskazują, że na SERP mają wpływ różne czynniki polityczne, ekonomiczne i społeczne.

To uprzedzenie może być bezpośrednim skutkiem procesów ekonomicznych i handlowych: firmy, które reklamują się w wyszukiwarce, mogą stać się bardziej popularne w organicznych wynikach wyszukiwania w tej wyszukiwarce. Przykładem wpływu procesów politycznych jest usuwanie wyników wyszukiwania niezgodnych z lokalnymi przepisami. Na przykład Google nie będzie wyświetlać niektórych witryn neonazistowskich we Francji i Niemczech, gdzie negowanie Holocaustu jest nielegalne.

Stronniczość może również wynikać z procesy społeczne, ponieważ algorytmy wyszukiwarek często mają na celu wykluczenie niesformatowanych punktów widzenia na rzecz bardziej „popularnych” wyników. Algorytmy indeksowania głównych wyszukiwarek nadają priorytet amerykańskim witrynom.

Bomba wyszukiwania to jeden z przykładów próby manipulowania wynikami wyszukiwania z powodów politycznych, społecznych lub handlowych.

Zobacz też

  • Qwika
  • Elektroniczna biblioteka#Listy biblioteki i systemy wyszukiwania
  • Pasek narzędzi programisty WWW

Uwagi

Literatura

  • Ashmanov I. S., Iwanow A.A. Promocja strony w wyszukiwarkach. - M. : Williams, 2007. - 304 s. - ISBN 978-5-8459-1155-1.
  • Bajkow W.D. Internet. Szukać informacji. Promocja strony internetowej. - Petersburg. : BHV-Petersburg, 2000. - 288 s. - ISBN 5-8206-0095-9.
  • Kolisnichenko D. N. Wyszukiwarki i promocja stron internetowych w Internecie. - M.: Dialektyka, 2007. - 272 s. - ISBN 978-5-8459-1269-5.
  • Lande D.V. Szukaj wiedzy w Internecie. - M. : Dialektyka, 2005. - 272 s. - ISBN 5-8459-0764-0.
  • Lande D.V., Snarsky A. A., Bezsudnov I.V. Internet: Nawigacja w złożonych sieciach: modele i algorytmy. - M.: Librokom (Wydawnictwo URSS), 2009. - 264 s. - ISBN 978-5-397-00497-8.
  • Chu H., Rosenthal M.

Cześć, Drodzy Czytelnicy! Z tobą Ekaterina Kalmykova. Dzisiejszy artykuł będzie poświęcony takiej koncepcji jak wyszukiwarka, czym jest, do czego służy. Przyjrzymy się również bliżej rodzajom wyszukiwarek w Internecie.

Jeśli masz pytanie: „Dlaczego mam wiedzieć o tych wyszukiwarkach?”, to odpowiem w ten sposób. Kiedy jesz pyszną zupę w restauracji, chcesz wiedzieć, z jakich składników jest zrobiona, aby móc ją powtórzyć w domu? W końcu, jeśli jesteś zadowolony z efektu końcowego, czyli smaku zupy, to na pewno chciałbyś wiedzieć, co doprowadziło do takiego wyniku?

Możesz też powiedzieć o pracy z wyszukiwarką (PS). Jeśli w przyszłości stworzysz własnego bloga, to znając pracę PS nie będziesz musiał szukać pomocy u specjalistów. Będziesz mógł samodzielnie zarządzać swoim projektem w taki sposób, aby wyszukiwarka widziała go i pokazywała innym użytkownikom. W końcu od tego będzie zależeć obecność twojego zasobu i odpowiednio zarobki.

Więc zacznijmy.

Co to jest wyszukiwarka?

Wyszukiwarka to specjalny zasób w Internecie, który dostarcza użytkownikowi informacje zgodnie z jego żądaniem. Oznacza to, że ten zasób gromadzi wszystkie dane w sieci globalnej, wszystkich projektach internetowych, a po otrzymaniu określonego żądania od użytkownika dostarcza niezbędne informacje, wysyłając je na przykład do bloga tematycznego lub strony internetowej.

Zatem po stworzeniu swojego projektu Twoim zadaniem będzie dostanie się do zagadnienia, czyli do „listy” lub bazy danych wyszukiwarki. Ponieważ promocja strony w Internecie jest po prostu niemożliwa bez użycia jakiejkolwiek wyszukiwarki, dlatego będziesz musiał zadbać o jakość swojego zasobu, jego wewnętrzną i zewnętrzną optymalizację. Omówimy, jak to zrobić w przyszłych artykułach. Więc nie przegap tego.

W międzyczasie, jeśli zdecydujesz się na stworzenie własnego bloga, polecam przeczytać poniższe artykuły:

Ponieważ nowe zasoby sieciowe pojawiają się niemal codziennie, baza wyszukiwarek musi być stale aktualizowana. Każda nowo utworzona strona musi być zaindeksowana przez robota. Mówiąc prościej, asystenci PS - roboty muszą zapoznać się z nowym zasobem i przenieść te dane do samej wyszukiwarki.

Cóż, tutaj pewnie zgadłeś, że kiedy robot odwiedza Twojego bloga, wszystko powinno mu się podobać. Twój przyszły los będzie zależał od tego gościa.

Jak sprawić, by robot z Twojego projektu był całkowicie zachwycony, opowiem w jednym z poniższych artykułów. Nie przegap tego, będą ciekawe i bardzo ciekawe informacje, którymi się z wami podzielę.

Praca wyszukiwarek

Wszelkie prace związane z PS rozpoczynają się od wpisania żądanego zapytania w pasku wyszukiwania. Czego mogą szukać użytkownicy? Tak, wszystko, od przepisu na placki z kapustą po odwieczne pytanie „jak zarobić więcej pieniędzy bez robienia czegokolwiek”.

Aby Twój zasób pojawił się jako odpowiedź na pytanie, musisz wyprzedzić konkurencję. Aby to zrobić, musisz zwrócić szczególną uwagę na promocję swojego projektu, która obejmuje takie działania jak pisanie wysokiej jakości zoptymalizowanej treści, czyli odpowiadanie na prośby artykułu, poprawianie czynnika behawioralnego, czyli robienie dla czytelnika interesujące jest, aby był na zasobach, jest to poprawa użyteczności, czyli wygody odwiedzających i wielu innych czynników. To jest to, czego wszyscy się nauczymy.

Komponenty wyszukiwarki

A co pomaga wyszukiwarkom, na przykład samemu Google, indeksować Twój zasób?

  1. Agenci to pracownicy, którzy wykonują większość pracy — indeksują i analizują witryny.
  2. Pająki (pająki) - program, który może pobierać strony zasobu internetowego i zbierać informacje ogólne o nim.
  3. Roboty indeksujące (crawler) – program wyszukujący wszystkie linki na stronach, po czym wyszukuje nowe dane nieznane wyszukiwarkom.
  4. Indexer - analizuje tekst, nagłówki, styl itp.
  5. Roboty - indeksuj strony z Twoimi treściami, a także badaj różne linki.

Aby indeksowanie przebiegało tak, jak tego potrzebujesz, tworzysz specjalny dokument „robots.txt”. Pozwala systemowi sprawdzić tylko te strony, których potrzebujesz i usunąć te, których nie chcesz oglądać.

Rodzaje wyszukiwarek

Istnieje kilka opcji systemów wyszukiwania informacji:

  • Katalogi. Proste porównanie wyszukiwania to regał w bibliotece. Wszystko jest tam przechowywane w podkategoriach i kategoriach danego tematu. Jeśli trafiłeś do takiej wyszukiwarki, to uwierz mi, informacje, które tam znajdziesz, będą bardziej niż przydatne i zrozumiałe dla twojego postrzegania. Zgadłeś, która wspólna witryna w pytaniu? Oczywiście o Wikipedii, która zebrała cały katalog przydatnych informacji.
  • Wyszukaj wskaźniki. Wyszukiwanie w danych odbywa się kosztem fraz kluczowych. Jest to jednocześnie wygodne i niewygodne. Myślę, że ci ludzie, którzy szukają np. „Dziewczyna pokazuje klasę”, zrozumieją mnie, zobaczą, jak dziewczyna pokazuje kciuki do góry i w wyszukiwaniu pojawia się coś niezbyt przyzwoitego. 🙂 Ten typ wyszukiwania charakteryzuje większość wyszukiwarek.
  • systemy oceny. Określ swoją popularność ze względu na liczbę odwiedzin. Oczywiście nie jest to najlepsze kryterium, ponieważ nie zawsze bierze się pod uwagę użyteczność i jakość samego zasobu. Przykładem takiego systemu jest zasób internetowy alexa.com.

Wyszukiwarki dzielą się również na ogólne i specjalistyczne. Wyszukiwarki ogólne sortują dane informacyjne bez żadnego wyboru dla wszystkich znanych im zasobów sieciowych. Należą do nich Yandex, Rambler, Google. Specjalistyczne — sortuj według używanego języka.

Ponadto wyszukiwarki można podzielić na dystrybucja regionalna i światowa.

Do tej pory wszystkie wyszukiwarki stale ulepszają swoje algorytmy do wybierania odpowiednich zasobów wysokiej jakości.

Trochę historii

PS pojawił się w Runecie w 1996 roku - to Aport i Rambler. Rok później, w 1997 roku, powstał Yandex, a rok później, w 1998 roku, pojawił się kolejny konkurent - Google. W tej chwili najpopularniejsze to Yandex i Google.

Jakie są obecnie najpopularniejsze wyszukiwarki?

Oto statystyki:

Jak widać, Yandex jest obecnie najpopularniejszy w Rosji, wraz z Google i Mail.

W ten sposób możesz zobaczyć najpopularniejsze wyszukiwania, na których powinieneś się skupić podczas tworzenia i promowania swojego projektu.

Wyszukiwarka Yandex (Yandex)

Zasada działania jest następująca: szukana fraza wpisz zapytanie, którego szukasz, kliknij "Znajdź" i zobacz wynik. Yandex odebrał 13 milionów odpowiedzi na twoją prośbę. Możesz także wyszukiwać na zdjęciach, filmach, rynku (spójrz na lewą kolumnę).

Dodatkowo możesz ustawić region wyszukiwania. Aby to zrobić, kliknij ikonę obok krzyżyka w pasku wyszukiwania i wybierz żądany region w oknie filtra.

Wyszukiwarka Google (Google)

Google działa podobnie do Yandex. Możesz wyszukiwać informacje w różnych sekcjach: zdjęcia, filmy, wiadomości, mapy itp.

Jeśli klikniesz „Narzędzia wyszukiwania”, otworzy się panel ustawień, w którym możesz wybrać region, język i czas wyszukiwania informacji.

Teraz wiesz, jakie wyszukiwarki istnieją w Internecie, widziałeś też najpopularniejsze z nich, a teraz, uzbrojony w informacje, możesz budować swoje połączenia i interakcję z wyszukiwarkami.

To wszystko na dzisiaj. Jak ci się podoba ten artykuł?

Wszystko na teraz.

Radzę aktualizować bloga, aby nie przegapić najnowszych wiadomości.

Ekaterina Kałmykowa

W ostatnich latach usługi Google i Yandex mocno wkroczyły w nasze życie. W związku z tym wielu prawdopodobnie zastanawia się, co to jest wyszukiwarka? Mówiąc prościej, jest to system oprogramowania przeznaczony do wyszukiwania informacji na świecie szeroka sieć. Jego wyniki są zwykle prezentowane w formie listy, często nazywanej stronami wyników wyszukiwania (SERP). Informacje mogą być kombinacją stron internetowych, obrazów i innych typów plików. Niektóre wyszukiwarki zawierają również informacje dostępne w bazach danych lub katalogach publicznych.

W przeciwieństwie do katalogów internetowych, które są obsługiwane tylko przez redaktorów natywnych, wyszukiwarki zawierają również informacje w czasie rzeczywistym, uruchamiając algorytm w przeszukiwarce sieciowej.

Historia wystąpienia

Same wyszukiwarki pojawiły się wcześniej niż w sieci WWW – w grudniu 1990 roku. Pierwsza taka usługa nazywała się Archie i wyszukiwała zawartość plików FTP za pomocą poleceń.

Co to jest wyszukiwarka internetowa? Do września 1993 roku sieć WWW była całkowicie indeksowana ręcznie. Istniała lista serwerów WWW, zredagowana przez Tima Berners-Lee, która znajdowała się na serwerze WWW CERN. Ponieważ coraz więcej serwerów przechodziło w tryb online, powyższa usługa nie nadążała z przetwarzaniem takiej ilości informacji.

Jedną z pierwszych wyszukiwarek opartych na wyszukiwaniu internetowym był WebCrawler, który został wydany w 1994 roku. W przeciwieństwie do swoich poprzedników umożliwiał użytkownikom wyszukiwanie dowolnego słowa na dowolnej stronie internetowej. Algorytm ten stał się od tego czasu standardem dla wszystkich głównych wyszukiwarek. Była to również pierwsza decyzja szeroko znana opinii publicznej. Również w 1994 roku uruchomiono usługę Lycos, która później stała się dużym projektem komercyjnym.

Wkrótce pojawiło się wiele wyszukiwarek, a ich popularność znacznie wzrosła. Należą do nich Magellan, Excite, Infoseek, Inktomi, Northern Light i AltaVista. Wieśniak! był jednym z najpopularniejszych sposobów znajdowania interesujących stron, ale jego algorytm wyszukiwania działał we własnym katalogu internetowym, a nie w pełnotekstowych kopiach stron. Osoby poszukujące informacji mogą również przeglądać katalog zamiast wyszukiwać według słów kluczowych.

Nowa runda rozwoju

Google przyjął pomysł sprzedaży zapytań wyszukiwania w 1998 roku, zaczynając od małej firmy o nazwie goto.com. Ten ruch miał znaczący wpływ na biznes SEO, który z czasem stał się jednym z najbardziej dochodowych biznesów w sieci.

Około 2000 roku wyszukiwarka Google stała się powszechnie znana. Firma osiągnęła lepsze wyniki w wielu wyszukiwaniach dzięki innowacji o nazwie PageRank. Ten iteracyjny algorytm ocenia strony internetowe na podstawie ich linków do innych witryn i stron, w oparciu o założenie, że dobre lub pożądane źródła są często wymieniane przez innych. Google utrzymał również minimalistyczny interfejs swojej wyszukiwarki. Wręcz przeciwnie, wielu konkurentów wbudowało w portal wyszukiwarkę. W rzeczywistości Google stał się tak popularny, że pojawiły się silniki oszustów, takie jak Mystery Seeker. Obecnie istnieje wiele regionalnych wersji tej usługi, w szczególności wyszukiwarka Google.ru przeznaczona dla użytkowników rosyjskojęzycznych.

Jak działają te usługi?

Jak wygląda ranking i wydawanie wyników? Czym są wyszukiwarki pod względem algorytmu działania? Uzyskują swoje informacje poprzez indeksowanie sieci z witryny do witryny. Robot lub „pająk” sprawdza adresowaną do niego domyślną nazwę pliku robots.txt przed przesłaniem określonych informacji do zindeksowania. Koncentruje się na wielu czynnikach, a mianowicie nagłówkach, treści strony, JavaScript, kaskadowych arkuszach stylów (CSS), a także standardowych znaczniki HTML zawartość lub metadane w metatagach HTML.

Indeksowanie oznacza kojarzenie słów i innych definiowalnych tokenów znalezionych na stronach internetowych z ich nazwy domen i pola na oparty na HTML. Asocjacje są tworzone w publicznej bazie danych dostępnej dla zapytań wyszukiwarek internetowych. Żądanie od użytkownika może być jednym słowem. Indeks pomaga w jak najszybszym znalezieniu informacji związanych z zapytaniem.

Niektóre techniki indeksowania i buforowania stanowią tajemnice handlowe, podczas gdy indeksowanie sieci to prosty proces systematycznego odwiedzania wszystkich witryn.

Pomiędzy wizytami indeksowania zbuforowana wersja strony (część lub całość treści potrzebnych do jej wyświetlenia) przechowywana w pamięci roboczej wyszukiwarki jest szybko wysyłana do żądającego użytkownika. Jeśli wizyta jest spóźniona, wyszukiwarka może po prostu działać jako internetowy serwer proxy. W takim przypadku strona może różnić się od indeksów wyszukiwania. Zbuforowane źródło pokazuje wersję, której słowa zostały zindeksowane, więc może być przydatne w przypadku utraty rzeczywistej strony.

Architektura wysokiego poziomu

Zazwyczaj użytkownik wprowadza zapytanie do wyszukiwarki w postaci kilku słów kluczowych. Indeks zawiera już nazwy witryn zawierających te słowa kluczowe i są one natychmiast wyświetlane. Prawdziwym obciążeniem jest tworzenie stron internetowych, które są listą wyników wyszukiwania. Każda strona na całej liście musi być uszeregowana zgodnie z informacjami w indeksach.

W takim przypadku górny element wyniku wymaga wyszukania, zrekonstruowania i zaznaczenia fragmentów pokazujących kontekst z dopasowanych słów kluczowych. Jest to tylko część przetwarzania każdej strony internetowej w wynikach wyszukiwania, a dalsze strony (obok niej) wymagają większości tego przetwarzania końcowego.

Poza zwykłym wyszukiwaniem słów kluczowych, wyszukiwarki oferują własne GUI lub operatory sterowane poleceniami oraz opcje wyszukiwania w celu udoskonalenia wyników.

Zapewniają użytkownikowi niezbędne elementy sterujące za pomocą pętli opinia, filtrując i ważąc podczas poprawiania poszukiwanych danych, z uwzględnieniem początkowych stron pierwszych wyników wyszukiwania. Na przykład od 2007 r. Google.com umożliwia filtrowanie wynikowej listy według daty, klikając „Pokaż narzędzia wyszukiwania” w skrajnej lewej kolumnie oryginalnej strony wyników, a następnie wybierając żądany zakres dat.

Odmiana wniosków

Większość wyszukiwarek obsługuje to użycie operatory logiczne AND, OR i NOT, aby pomóc użytkownikom końcowym doprecyzować zapytanie. Niektóre operatory odnoszą się do literałów, co pozwala użytkownikowi doprecyzować i rozszerzyć wyszukiwane hasła. Robot wyszukuje słowa lub frazy w taki sam sposób, jak wyszukuje wprowadzone polecenia. Niektóre wyszukiwarki zapewniają zaawansowaną funkcję wyszukiwania, która pozwala użytkownikom określić odległość między słowami kluczowymi.

Istnieje również wyszukiwanie oparte na pojęciach, gdzie badania polegają na wykorzystaniu analizy statystycznej na stronach zawierających szukane słowa lub frazy. Ponadto zapytania w języku naturalnym pozwalają użytkownikowi wpisać pytanie w takiej samej formie, jaką zadałby osobie (najbardziej typowym przykładem jest ask.com).

Przydatność wyszukiwarki zależy od trafności zestawu zwracanych przez nią wyników. Mogą to być miliony stron internetowych zawierających określone słowo lub frazę, ale niektóre z nich mogą być bardziej trafne, popularne lub autorytatywne niż inne. Większość wyszukiwarek korzysta z metod rankingowych, aby zapewnić najlepsze wyniki.

Sposób, w jaki wyszukiwarka decyduje, które strony są najlepiej dopasowane do zapytania oraz w jakiej kolejności powinny być wyświetlane znalezione źródła, różni się znacznie w zależności od robota. Praktyki te zmieniają się również w czasie, wraz ze zmianami w korzystaniu z Internetu i rozwojem nowych technologii.

Co to jest wyszukiwarka: odmiany

Istnieją dwa główne typy wyszukiwarek. Pierwszy to system predefiniowanych i hierarchicznie uporządkowanych słów kluczowych, którymi ludzie masowo go zaprogramowali. Drugi to system, który generuje „odwrócony indeks” poprzez parsowanie znalezionych tekstów.

Większość wyszukiwarek to usługi komercyjne wspierane przychodami z reklam, dlatego niektóre z nich umożliwiają reklamodawcom ustalanie pozycji w wyświetlanych wynikach za opłatą. Serwisy, które nie przyjmują pieniędzy za ranking, zarabiają na wyświetlaniu reklam kontekstowych obok wyświetlanych witryn. Do tej pory promocja w wyszukiwarkach jest jednym z najbardziej dochodowych zarobków w sieci.

Jakie usługi są najczęstsze?

Google jest najpopularniejszą wyszukiwarką na świecie z udziałem w rynku wynoszącym 80,52% według stanu na marzec 2017 r.

  • Google - 80,52%
  • Bing - 6,92%
  • Baidu - 5,94%
  • Wieśniak! - 5,35%

Wyszukiwarki w Rosji i Azji Wschodniej

W Rosji i niektórych krajach Azji Wschodniej Google nie jest najpopularniejszą usługą. Wśród rosyjskich użytkowników liderem popularności jest wyszukiwarka Yandex (61,9%) w porównaniu do Google (28,3%). W Chinach Baidu jest najpopularniejszą usługą. Portal wyszukiwania Korei Południowej - Naver jest używany do 70% wyszukiwań online w tym kraju. Również Yahoo! w Japonii i na Tajwanie jest najpopularniejszym narzędziem do wyszukiwania właściwych danych.

Inne znane rosyjskie wyszukiwarki to Mail i Rambler. Wraz z początkiem rozwoju Runetu byli bardzo popularni, ale teraz stracili swoje pozycje.

Ograniczenia i kryteria wyszukiwania

Podczas gdy wyszukiwarki są zaprogramowane do rankingu stron internetowych w oparciu o pewien stopień popularności i trafności, badania empiryczne wskazują na różne polityczne, ekonomiczne i społeczne kryteria wyboru dostarczanych przez nie informacji. Te uprzedzenia mogą wynikać bezpośrednio z procesów ekonomicznych (na przykład firmy reklamujące wyszukiwarkę mogą również zyskać większą popularność w bezpłatnych wynikach wyszukiwania) lub politycznych (na przykład usunięcie wyników wyszukiwania w celu zachowania zgodności z lokalnymi przepisami). Na przykład Google nie będzie wyświetlać niektórych witryn neonazistowskich we Francji i Niemczech, gdzie negowanie Holokaustu jest nielegalne.

Wyszukiwarki chrześcijańskie, islamskie i żydowskie

Globalny rozwój Internetu i mediów elektronicznych w świecie muzułmańskim w ciągu ostatniej dekady skłonił wyznawców islamu na Bliskim Wschodzie i na subkontynencie azjatyckim do próby stworzenia własnych wyszukiwarek i filtrowanych portali, które pozwolą użytkownikom przeprowadzać bezpieczne wyszukiwania.

Takie usługi zawierają filtry, które dodatkowo klasyfikują strony internetowe jako „halal” lub „haram” w oparciu o współczesną ekspercką interpretację „Prawa islamu”.

Portal ImHalal został uruchomiony we wrześniu 2011 r., a Halalgoogling w lipcu 2013 r. Używają filtrów haram opartych na algorytmach Google i Bing.

Inne wyszukiwarki skoncentrowane na religii to Jewgle (żydowska wersja Google) i Christian SeekFind.org. Odfiltrowują strony internetowe, które zaprzeczają lub dyskredytują ich wiarę.

Co to jest

DuckDuckGo to dość znana wyszukiwarka open source. Serwery znajdują się w USA. Oprócz własnego robota wyszukiwarka korzysta z wyników innych źródeł: Yahoo, Bing, Wikipedia.

Lepiej

DuckDuckGo pozycjonuje się jako najlepsze narzędzie do wyszukiwania prywatności i prywatności. System nie zbiera żadnych danych o użytkowniku, nie przechowuje logów (brak historii wyszukiwania), wykorzystanie plików cookies jest maksymalnie ograniczone.

DuckDuckGo nie zbiera ani nie udostępnia danych osobowych użytkowników. To jest nasza polityka prywatności.

Gabriel Weinberg, założyciel DuckDuckGo

Dlaczego tego potrzebujesz

Wszystkie główne wyszukiwarki próbują personalizować wyniki wyszukiwania na podstawie danych o osobie przed monitorem. Zjawisko to nazywa się „bańką filtra”: użytkownik widzi tylko te wyniki, które są zgodne z jego preferencjami lub które system uważa za takie.

Tworzy obiektywny obraz, który nie zależy od Twojego przeszłego zachowania w sieci i eliminuje tematyczne reklamy google i „Yandex”, na podstawie twoich próśb. Za pomocą DuckDuckGo łatwo jest wyszukiwać informacje w językach obcych, podczas gdy Google i Yandex domyślnie preferują witryny rosyjskojęzyczne, nawet jeśli zapytanie jest wpisane w innym języku.


Co to jest

not Evil to system, który przeszukuje anonimową sieć Tor. Aby z niego skorzystać, musisz przejść do tej sieci, na przykład uruchamiając wyspecjalizowaną .

not Evil nie jest jedyną wyszukiwarką tego rodzaju. Jest LOOK (domyślne wyszukiwanie w przeglądarce Tor, dostępne ze zwykłego Internetu) lub TORCH (jedna z najstarszych wyszukiwarek w sieci Tor) i inne. Zdecydowaliśmy się na nie Zło ze względu na jednoznaczną aluzję do Google (wystarczy spojrzeć na stronę startową).

Lepiej

Szuka tam, gdzie zasadniczo odmawia się dostępu Google, Yandex i innym wyszukiwarkom.

Dlaczego tego potrzebujesz

W sieci Tor jest wiele zasobów, których nie można znaleźć w przestrzegającym prawa Internecie. A ich liczba będzie rosła w miarę zacieśniania się kontroli władz nad zawartością sieci. Tor jest rodzajem sieci w Internecie z jej sieciami społecznościowymi, trackerami torrentów, mediami, rynkami, blogami, bibliotekami i tak dalej.

3. YaCy

Co to jest

YaCy to zdecentralizowana wyszukiwarka działająca na zasadzie sieci P2P. Każdy komputer, na którym zainstalowany jest główny moduł oprogramowania, samodzielnie skanuje Internet, czyli jest odpowiednikiem robota wyszukującego. Uzyskane wyniki są gromadzone we wspólnej bazie danych, z której korzystają wszyscy uczestnicy YaCy.

Lepiej

Trudno tu powiedzieć, czy jest lepiej, czy gorzej, ponieważ YaCy to zupełnie inne podejście do organizacji wyszukiwania. Brak jednego serwera i firmy właściciela sprawia, że ​​wyniki są całkowicie niezależne od czyichkolwiek preferencji. Autonomia każdego węzła wyklucza cenzurę. YaCy jest w stanie przeszukiwać głębokie sieci i nieindeksowane sieci publiczne.

Dlaczego tego potrzebujesz

Jeśli jesteś zwolennikiem oprogramowania open source i darmowego Internetu, na który nie mają wpływu agencje rządowe i duże korporacje, to YaCy jest Twoim wyborem. Może być również używany do organizowania wyszukiwania w ramach firmy lub innej sieć offline. I choć YaCy nie jest zbyt przydatny w życiu codziennym, jest godną alternatywą dla Google pod względem procesu wyszukiwania.

4. Pipl

Co to jest

Pipl to system przeznaczony do wyszukiwania informacji o konkretnej osobie.

Lepiej

Autorzy Pipl twierdzą, że ich wyspecjalizowane algorytmy wyszukują efektywniej niż „zwykłe” wyszukiwarki. W szczególności priorytet mają profile w mediach społecznościowych, komentarze, listy członków i różne bazy danych, w których publikowane są informacje o osobach, takie jak bazy danych orzeczeń sądowych. Wiodącą pozycję Pipl w tym obszarze potwierdzają Lifehacker.com, TechCrunch i inne publikacje.

Dlaczego tego potrzebujesz

Jeśli potrzebujesz znaleźć informacje o osobie mieszkającej w USA, to Pipl będzie znacznie skuteczniejszy niż Google. Najwyraźniej bazy danych rosyjskich sądów są niedostępne dla wyszukiwarki. Dlatego nie radzi sobie tak dobrze z obywatelami Rosji.

Co to jest

FindSounds to kolejna wyspecjalizowana wyszukiwarka. Przeszukuje otwarte źródła różnych dźwięków: dom, natura, samochody, ludzie i tak dalej. Usługa nie obsługuje żądań w języku rosyjskim, ale istnieje imponująca lista tagów w języku rosyjskim, które można wyszukiwać.

Lepiej

W wydawaniu tylko dźwięków i nic więcej. W ustawieniach możesz ustawić żądany format i jakość dźwięku. Wszystkie znalezione dźwięki są dostępne do pobrania. Istnieje wyszukiwanie wzorców.

Dlaczego tego potrzebujesz

Jeśli potrzebujesz szybko znaleźć dźwięk wystrzału z muszkietu, uderzenie ssącego dzięcioła lub krzyk Homera Simpsona, to ta usługa jest dla Ciebie. I wybraliśmy to tylko z dostępnych zapytań w języku rosyjskim. Na język angielski spektrum jest jeszcze szersze.

Poważnie, wyspecjalizowana usługa oznacza wyspecjalizowaną grupę odbiorców. Ale czy tobie też się przyda?

Co to jest

Wolfram|Alpha to wyszukiwarka obliczeniowa. Zamiast linków do artykułów zawierających słowa kluczowe, daje gotową odpowiedź na zapytanie użytkownika. Na przykład, jeśli wpiszesz w formularzu wyszukiwania „porównaj populację Nowego Jorku i San Francisco” w języku angielskim, Wolfram|Alpha natychmiast wyświetli tabele i wykresy z porównaniem.

Lepiej

Ta usługa jest lepsza niż inne w znajdowaniu faktów i obliczaniu danych. Wolfram|Alpha gromadzi i porządkuje dostępną w sieci wiedzę z różnych dziedzin, w tym nauki, kultury i rozrywki. Jeśli ta baza zawiera gotową odpowiedź na zapytanie, system ją pokazuje, jeśli nie, oblicza i wyświetla wynik. W tym przypadku użytkownik widzi tylko i nic więcej.

Dlaczego tego potrzebujesz

Jeśli jesteś na przykład studentem, analitykiem, dziennikarzem lub badaczem, możesz użyć Wolfram|Alpha, aby znaleźć i obliczyć dane związane z Twoją działalnością. Usługa nie rozumie wszystkich próśb, ale stale się rozwija i staje się coraz inteligentniejsza.

Co to jest

Wyszukiwarka Dogpile wyświetla listę wyników z: wyniki wyszukiwania Google, Yahoo i inne popularne systemy.

Lepiej

Po pierwsze, Dogpile wyświetla mniej reklam. Po drugie, serwis wykorzystuje specjalny algorytm do wyszukiwania i wyświetlania najlepszych wyników z różnych wyszukiwarek. Według twórców Dogpile, ich system generuje najbardziej kompletny problem w całym Internecie.

Dlaczego tego potrzebujesz

Jeśli nie możesz znaleźć informacji w Google lub innej standardowej wyszukiwarce, wyszukaj je w kilku wyszukiwarkach jednocześnie, używając Dogpile.

Co to jest

BoardReader to system wyszukiwania tekstu dla forów, serwisów Q&A i innych społeczności.

Lepiej

Usługa pozwala zawęzić pole wyszukiwania do serwisów społecznościowych. Dzięki specjalnym filtrom możesz szybko znaleźć posty i komentarze, które odpowiadają Twoim kryteriom: językowi, dacie publikacji, nazwie witryny.

Dlaczego tego potrzebujesz

BoardReader może przydać się specjalistom od PR i innym specjalistom od mediów, którzy są zainteresowani opiniami mediów na określone tematy.

Wreszcie

Życie alternatywnych wyszukiwarek jest często ulotne. Lifehacker zapytał byłego prezesa ukraińskiego oddziału firmy Yandex Siergieja Petrenko o długoterminowe perspektywy takich projektów.


Siergiej Petrenko

Były dyrektor generalny Yandex.Ukraine.

Jeśli chodzi o los alternatywnych wyszukiwarek, jest prosty: być bardzo niszowymi projektami z małą publicznością, a więc bez jasnych perspektyw komercyjnych lub, odwrotnie, z całkowitą jasnością ich braku.

Patrząc na przykłady w artykule, można zauważyć, że tego typu wyszukiwarki albo specjalizują się w wąskiej, ale poszukiwanej niszy, która chyba tylko do tej pory nie rozrosła się na tyle, by być zauważalnym na radarach Google czy Yandex. lub testują oryginalną hipotezę w rankingu, która nie ma jeszcze zastosowania w wyszukiwaniu konwencjonalnym.

Na przykład, jeśli nagle okaże się, że wyszukiwanie przez Tora jest poszukiwane, to znaczy, że przynajmniej procent odbiorców Google będzie potrzebować stamtąd wyników, wtedy oczywiście zwykłe wyszukiwarki zaczną rozwiązywać problem, jak znajdź je i pokaż użytkownikowi. Jeśli z zachowania odbiorców wynika, że ​​znaczna część użytkowników w znacznej liczbie zapytań wydaje się bardziej trafnymi wynikami, danymi bez uwzględnienia czynników zależnych od użytkownika, to Yandex lub Google zaczną dawać takie wyniki.

„Być lepszym” w kontekście tego artykułu nie oznacza „być lepszym we wszystkim”. Tak, pod wieloma względami nasi bohaterowie są daleko od Yandex (nawet daleko od Binga). Ale każda z tych usług daje użytkownikowi coś, czego nie mogą zaoferować giganci branży wyszukiwania. Na pewno znasz też podobne projekty. Podziel się z nami - porozmawiajmy.