Как работает поисковая система Yandex? Обзор и характеристика поисковых систем сети Internet

Привет дорогие друзья! В этой статье мы продолжим рассматривать поисковую систему Яндекс, и как вы помните, в прошлых статьях был рассмотрена история создания этой великой компании, которая занимает первое место среди конкурентов в России и не только.

Все это хорошо, но новичков и бывалых сайтостроителей интересует самый главный вопрос, конечно же, связанный с тем, как выводить свои проекты на первые места ТОП выдачи.

Поэтому давайте рассмотрим, как работает поисковая система Яндекс, чтобы понять на какие грабли можно наступить, да и чего вообще стоит ждать от русской поисковой машины.

В прошлой статье мы с тобой обсуждали . Тема оказалась достаточно интересной и полезной. Поэтому я решил её дополнить, углубить так сказать.

Итак, наверное, с вопросом «Зачем поисковик индексирует документы» я погорячился – это и ежу понятно. Осталось выяснить вопрос «как».

Алгоритмы ранжирования сайтов

Для начала давай познакомимся с некоторыми алгоритмами, которые являются основополагающими для любой поисковой системы:

— Алгоритм прямого поиска.

Что это такое – вы помните, что читали замечательную историю в одной из книг. И вы начинаете по очереди искать. Взяли одну книгу – полистали – не нашли, взяли другую... Принцип понятен, но этот способ чрезвычайно долгий. Это тоже понятно.

— Алгоритм обратного поиска.

Для этого алгоритма создается из каждой страницы твоего блога – создается текстовый файл. В этом файле перечисляются в алфавитном порядке ВСЕ слова, которые ты использовал. Даже позиция этого слова в тексте указывается (координаты в тексте).

Это достаточно быстрый способ, но уже поиск происходит с какой-то погрешностью.

Здесь главное понимать, что алгоритм этот ищет не в интернете, не поиском по блогу. А в отдельно взятом текстовом файле, который создан был когда-то давно. Когда робот заходил к тебе. И эти файлы (обратные индексы) хранятся на серверах Яндекса.

Так, это были базовые алгоритмы поиска. Т.е. как Яндекс просто находит нужные документы. С этим вроде бы проблем не должно быть.

Но ведь документов Яндекс знает не один и даже не 100, а по последним данным из моих источников – Яндекс знает порядка 11 млрд. документов (10 727 736 489 страниц) .

И среди всего этого количества нужно выбрать документы, подходящие под запрос. И что еще важнее – нужно как-то ранжировать их. Т.е. выстроить по степени важности, а точнее по степени полезности для читателя.

Математические модели поиска

Для решения этого вопроса на помощь приходят математические модели. Вот о простейших моделях мы сейчас и поговорим.

Булевская мат.модель – Если слово встречается в документе – документ считается найденным. Просто на совпадение и ничего сложного.

Но тут есть проблемы. Например, если ты как пользователь введешь какое-то популярное слово, а еще лучше предлог «в», который является самым распространенным словом в русском языке и встречается в КАЖДОМ документе – то тебе выдаст такое количество результатов, что ты даже не осознаешь такую цифру, сколько тебе документов нашлось. Поэтому появилась следующая мат модель.

Векторная мат.модель – эта модель определяет «вес» документа. Уже не только совпадение встречается, но и это слово должно встречаться несколько раз. Причем чем больше слово встречается – тем выше релевантность (соответствие).

Именно векторную модель используют ВСЕ поисковики.

Вероятностная модель – более сложная. Принцип такой: поисковик нашел сам эталон страницы. Например, вы ищете информацию об истории Яндекса. У Яндекса хранится какой-то эталон, допустим это будет моя предыдущая статья о Яндексе.

И все остальные документы он будет сравнивать с этой статьёй. И логика здесь такая: чем более страница твоего блога похож на мою статью – тем ВЕРОЯТНЕЕ тот факт, что твоя страница блога тоже будет полезна читателю и тоже рассказывает об истории Яндекса.

Чтобы сократить количество документов, которые нужно показывать пользователю – было введено понятие релевантности, т.е. соответствия.

Насколько страница твоего блога действительно соответствует теме. Это важная тема, которая касается качества поиска.

Асессоры — кто это и за что отвечают

Нужна эта релевантность еще и для оценки качества работы алгоритмов.

Для этого есть штаб спецназа – их называют Асессоры. Это специальные люди, которые руками просматривают поисковую выдачу.

У них есть инструкция, как проверять сайты, как оценивать и т.п. И они руками определяют по порядку подходят твои страницы поисковым запросам или не подходит.

И вот от мнения асессоров зависит качество поисковых алгоритмов. Если все асессоры скажут, что поисковая выдача не соответствует запросам – значит неправильный алгоритм ранжирования и здесь вина только Яндекса.

Если асессоры говорят о том, что только один сайт не соответствует запросу – значит, сайт улетает куда-то далеко и понижается в выдаче. Точнее не весь сайт, а только одна статья, но это «не суть».

Конечно, асессоры не могут руками и глазами просмотреть и оценить ВСЕ статьи. Это ж понятно.

И на помощь приходят другие параметры, по которым проходит ранжирование страниц.

Их очень много, ну например:

  • вес страницы (вИЦ, PageRank, пузомерки в общем);
  • авторитетность домена;
  • релевантность текста запросу;
  • релевантность текстов внешних ссылок запросу;
  • а также множество других факторов ранжирования.

Асессоры вносят замечания, а люди, которые отвечают за за настройку математической модели ранжирования уже, в свою очередь, редактируют формулу, в результате чего поисковик работает более качественно.

Основные критерии оценки работы формулы:

1. Точность выдачи поисковой системы - процент документов, соответствующих запросу (релевантных). Т.е. чем меньше страниц, не соответствующих запросу присутствует - тем лучше.

2. Полнота выдачи поисковой системы - это отношение релевантных веб-страниц по данному запросу к общему количеству релевантных документов, находящихся в коллекции (совокупности страниц, находящихся в поисковой системе).

Например, если во всей коллекции релевантных страниц больше, чем в поисковой выдаче, то это означает неполноту выдачи. Это произошло из-за того, что некоторая часть релевантных веб-страниц попала под фильтр.

3. Актуальность выдачи поисковой системы - это соответствие веб-страницы тому, что написано в сниппете. Например, документ может сильно отличаться или вовсе не существовать, но в выдаче присутствовать.

Актуальность выдачи напрямую зависит от того, как часто сканирует поисковый робот документы из своей коллекции.

Сбор коллекции (индексация страниц сайта) осуществляется специальной программой - поисковым роботом.

Поисковый робот получает список адресов для индексации, копирует их, далее содержимое скопированных веб-страниц отдаёт на обработку алгоритму, который преобразует их в обратные индексы.

Ну, вот «в двух словах», если можно так сказать, мы обсудили принципы работы поисковика.

Давай подытожим:

  1. Поисковой робот приходит к тебе на блог.
  2. Поисковой робот сохраняет у себя обратный индекс страницы для последующего поиска.
  3. С помощью математической модели документ обрабатывается и выдается в поисковой выдаче по формулам и с учетом мнения асессора.

Это если очень-очень упрощенно. Просто, чтобы сложилось базовое понимание работы поисковой системы Яндекс.

Я сейчас написал так много текста, и, возможно столько всего не понятно. Поэтому я предлагаю тебе вернуться на эту статью чуть позже и просмотреть вот это видео.

Это отличное руководство, по которому в своё время и я учился.

Надеюсь данная информации поможет лучше понять, почему какой-то из ваших сайтов занимает соответствующие позиции в поиске и сделать все, чтобы их улучшить.

На этом я с вами прощаюсь, если есть вопросы, я всегда рад ответить на них в комментариях. А может вы хотите дополнить статью?

В любом случае высказывайте свое мнение. !

Сравнительно недавно мир увидел новое творение от корпорации Яндекс — Yandex.Browser. Базируется на обычном движке Chromium, а интерфейс был полностью переработан и отличителен.

Практически все характеристики новой программы находятся на приличном уровне и кроме этого разработчики от Яндекс внедрили туда несколько собственных новых технологии. Обладает целой серией сервисов, которые были ранее выпущены под эгидой Yandex.

Имеет ряд преимуществ: улучшена функция проверки орфографии, можно осуществлять просмотр документов прямо в браузере (поддерживаются такие популярные форматы, как DOCX, PDF, PPTX и другие), можно переводить слова прям на странице и многое другое. Помимо всего прочего присутствует режим «Турбо», мир увидел его значительно ранее в функциях другого популярного браузера от Opera. Когда данный режим активирован, софт получает все данные в сжатом виде, и не будет загружать самые «объёмные» элементы. Таким образом, можно очень значительно сократить объём всей поставляемой информации и соответственно порядком ускорить загрузку страниц. Попробуйте программу в действии, нужно всего-то скачать Яндекс браузер на компьютер и установить, запустив скаченный exe файл.

У Яндекс браузера отсутствует полноценная галерея. Стоит обратить внимание на раздел «Дополнения», там есть пятнадцать разных дополнений. Кроме этого, можно интегрировать дополнения от Chrome, они не коим образом не конфликтуют с содержимым Yandex.

Немного истории.
Веб-обозреватель впервые появился на просторах сети Интернета в октябре 2012 года. На сентябрь 2013 года приложением уже пользовалось более 5 миллионов человек. Каждый день количество пользователей Яндекс.Браузера растет и растет, стоит отметить, очень быстро. Уже сегодня, в России и странах СНГ, Yandex.Browser вышел в лидеры и занял первое место по числу пользователей.

Многие пользователи хвалят приложение за стабильную работу, хорошую скорость и уникальный набор функций. Следует отметить, что поиск по страницам работает не только по точечным совпадениям, но и по другим формам (фразы или слова). Подобная функция отсутствует в любых других веб-обозревателей. Вместо «горячих» клавиш можно использовать жесты мышью (закрыть вкладку, восстановить вкладку, перейти вперёд и т.д.). В адресную строку можно вводить не только ссылки на нужные сайты, но и поисковые запросы.

Браузер от Яндекса анализирует ваши запросы и предоставляет поисковые подсказки. Новая технология также порядком экономит время и автоматически исправляет ошибки в адресе сайта. При этом вовсе не обязательно вбивать точный адрес, приложение знакомо со всеми популярными сайтами и будет их открывать, сразу после того, как вы введёте название.

Приятным дополнением к интерфейсу веб-обозревателя является панель быстрого запуска. На ней будут располагаться плитки с ссылками на те сайты, которые вы будете посещать чаще всего. Кроме этого, будет отображаться другая полезная информация: количество не просмотренных сообщений в почте, погода, пробки, новости и многое другое. Это очень удобно.

Безопасность.
Сейчас в сети можно встретить очень много разных сайтов с троянами и прочим вредоносным ПО, но Яндекс.Браузер предоставляет своим пользователям солидный уровень безопасности, поскольку сотрудничает с не безызвестной лабораторией Касперского, и всегда будет осуществлять проверку тех ресурсов, которые вы будете посещать на наличие вредоносных программ. Помимо всего прочего браузер от Яндекса будет всегда сохранять вкладки, настройки и многое другое. Вы сможете получить к ним доступ с любого компьютера, просто нужно будет активировать свой профиль.

Определение

«Я́ндекс» - российская международная ИТ-компания, владеющая одноимённой системой поиска в Сети и интернет-порталом. Поисковая система «Яндекс» является четвёртой среди поисковых систем мира по количеству обработанных поисковых запросов (свыше 6,3 млрд в месяц на начало 2014 года). По состоянию на 19 июля 2014 года, согласно рейтингу Alexa.com, сайт yandex.ru по популярности занимает 22-е место в мире и первое место в России.

Поисковая система Yandex.ru была официально анонсирована 23 сентября 1997 года, и первое время развивалась в рамках компании CompTek International. Как отдельная компания «Яндекс» образовался в 2000 году. В мае 2011 года Яндекс провёл первичное размещение акций, заработав на этом больше, чем какая-либо из Интернет-компаний со времён IPO поисковика Google в 2004 году.

Основным и приоритетным направлением компании является разработка поискового механизма, но за годы работы «Яндекс» стал мультипорталом. В 2013 году «Яндекс» предоставляет более 50 сервисов. Некоторые из них – Яндекс.Поиск, Яндекс.Карты, Яндекс.Маркет, Поиск по блогам, Яндекс.Пробки - доминируют на рынке.


1.2 История «Яндекс»

Рисунок 1 – Ворота старого офиса на улице Самокатной

В 1989 году предприниматель и программист Аркадий Волож основал фирму СоmpTek, продававшую персональные компьютеры и занимавшуюся автоматизацией рабочих мест. Также Волож интересовался алгоритмами обработки данных, и его заинтересовала возможность написания приложения, которое могло бы осуществлять поиск информации в больших объёмах текста, учитывая морфологию языка. Совместно со специалистом по компьютерной лингвистике Аркадием Борковским он основал в 1989году компанию «Аркадия». После 1990 года сотрудники «Аркадии» написали информационно-поисковые системы «Международная классификация изобретений» и «Классификатор товаров и услуг». В последующие три года они продавались НИИ и патентным организациям.

Слово «Яndex» придумали Илья Сегалович, директор Яндекса по технологиям, и генеральный директор компании - Аркадий Волож. Илья выписывал разные производные от слов, описывающих суть технологии. В результате появился вариант «yandex» - yet another indexer («ещё один индексатор».

В 1993 году «Аркадию» присоединили к CompTek, в которую ранее пришёл школьный друг Воложа программист Илья Сегалович. В том же году была создана программа для поиска на жёстком диске компьютера. Программу назвали «Yandex». Сотрудничая с Институтом проблем передачи информации, CompTek создала словарь с поиском, который учитывал морфологию русского языка. В 1994 годубыл создан «Библейский компьютерный справочник»

В 1995 году было принято решение об использовании поискового приложения для сети Интернет. Сначала оно работало с ограниченным числом ресурсов, а позже со всем русскоязычным сегментом Интернета .

Официально поисковая система Yandex.Ru была анонсирована 23 сенятбря 1997 года на выставкe Softool. «Яндекс» не был первой поисковой машиной России: в 1996 году появился Рамблер, а ещё раньше, в декабре 1995-году Altavista, причём последняя имела самый производительный на тот момент сервер и отличалась самой высокой скоростью работы среди конкурентов, обрабатывая миллионы запросов в день. Через два месяца после yandex.ru анонсировали поисковую систему «Апорт» (хотя впервые её продемонстрировали ещё в феврале 1996 года).

К середине 1999 года «Яндекс» был в семёрке популярнейших сайтов рунета; выручка «Яндекса» как отдела CompTek’а в этом году составляла 72 тыс. долл.


Рисунок 2-Переговорная в офисе «Яндекса».

В 2012 году выходит Яндекс Браузер. Вскоре программа получает турецкую и украинскую локализации.

Особенности поисковой системы Яндекс (Yandex)

Поисковая система "Яндекс" согласно рейтинга поисковых систем является четвертым среди крупнейших поисковых сервисов мира по количеству обрабатываемых поисковых запросов (более 4,5 млрд. в месяц) и первым крупнейшим неанглоязычным поисковым сервером. Оборот компании по данным о рейтинге поисковых систем в 2012 году составил 28,8 млрд руб, а чистая прибыль - 8,22 млрд руб.

Поисковая система Yandex.ru была официально анонсирована 23 сентября 1997 года, и первое время развивалась в рамках компании CompTek International. Как отдельная компания "Яндекс" образовался в 2000 году. Компания вышла на самоокупаемость в 2002 году, оборот за 2008 год - более 300 млн. долларов. Оборот за 2006 год - 72,6 млн. долларов, чистая прибыль - 29,9 млн., за 2005 год - 35,6 млн. долларов, чистая прибыль - 13,6 млн.

"Яндекс" постоянно совершенствует свои поисковые алгоритмы, что позволяет ему соответствовать современным критериям поиска и становиться на уровень Google хотя бы в России. Так, например, 9 сентября 2013 года Яндекс запустил новый поиск по картинкам(у Google подобное уже существовало). А пока так и есть, если судить по уровню освоения обоих поисковых систем аудиторией СНГ. "Яндекс", как и Google, работает на кластерной системе организации компьютерных вычислительных сетей. Каждый кластер отвечает за определённый сегмент сохранённой информации. Это позволяет в свою очередь оптимизаторам обеспечить эффективное поисковое продвежение сайтов в поисковой выдаче.

Сканирующие роботы поисковой системы бывают 2 видов:

основной сканирующий робот

быстрый робот, который регулярно сканирует сайты, на которых информация обновляется очень часто, и вносит информацию с этих сайтов в поисковую систему, что обеспечивает быстрое обновление индекса поисковой системы.Обновления (апдейты) поисковой системы бывают 2 видов:

Обновления поисковой базы. Происходят несколько раз в месяц. В поиске начинают выдаваться обновлённые страницы сайтов, собранные основным сканирующим роботом.

Обновления программной части (движка) поисковой системы. Сутью данных обновлений является изменение алгоритмов ранжирования документов в поисковой системе. Обычно подобные обновления анонсируются и им даются определённые названия.

"Яндекс" учитывает морфологию русского языка (мощная система определения словоформ), имеет возможность сузить запрос до максимально точного при помощи специальных поисковых формул и геотаргетинга, имеет качественно разработанный алгоритм оценки релевантности документов (точность отношения текста документа к поисковому запросу), обладает высокой скоростью реакции на запросы и практическим отсутствием перегрузок серверов. В умелых руках оптимизатора такой алгоритм позволяет решить вопрос, как продвинуть сайт бесплатно в поисковой выдаче.


Популярность

На начало 2013 года «Яндекс» является четвёртым поисковиком планеты с 4,84 млрд поисковых запросов. По этому показателю он отстаёт лишь от Гугла, Байду и Яху!. Причём, нужно отметить, «Яндекс» является самым быстрорастущим поисковиком из первой пятёрки, с 28 % за 2012 год. Доля на рынке Рунета составляет 60,5 %. Количество ежедневных поисковых запросов составляет (на конец 2013 года) 250 миллионов.

Таблица 1 Показатели за 2002 и 2012 год

По данным на начало 2010 года, «Яндекс» проиндексировал 10 млрд страниц. В интервью за 2012 год глава компании Аркадий Волож объявил о масштабировании поиска по мировому интернету и запуске технологии, которая позволит «индексировать несколько десятков миллиардов страниц».

Страницу результатов поиска в 2012 году пользователи загружали 130 миллионов раз в день.

В 2008 году «Яндекс» был девятым поисковиком в мире, в 2009 - седьмым, в 2013 - четвёртым.

По словам Игоря Ашманова, «сейчас в Рунете „Яндекс“ ищет лучше, чем Google».

Согласно исследованию Качество поиска и поисковых систем в Рунете за 6 апреля 2011 года, «Яндекс» лидирует на российском рынке по навигационному и тематическому поиску, по количеству проиндексированных документов, по качеству регионального поиска, в его выдаче невысок уровень поискового спама.

Руководство


Рисунок 3-Аркадий Волож

Рисунок 4-Илья Сегалович- директор по технологиям и разработке

Аркадий Волож - генеральный директор.

Илья Сегалович (1964-2013) - директор по технологиям и разработке.

Александр Шульгин - финансовый директор

Алексей Третьяков - коммерческий директор.

Андрей Себрант - директор по маркетингу сервисов.

Екатерина Фадеева - директор по правовым вопросам.

Аркадий Борковский - технический директор Yandex Labs

Максим Киселёв - директор по развитию бизнеса


Похожая информация.


Здравствуйте, дорогие читатели. Сегодняшняя тема не оставит равнодушным ни одного владельца сайта, ведь в этой статье я приведу описание поисковой системы Яндекс – лидера среди российских поисковиков. Что ни говори, грамотное использование её ресурсов – ключ к успешному продвижению и росту посещаемости вашей площадки.

Итак вперед к прочтению статьи.))

Возможности Yandex

Начнём, пожалуй, с характеристики самой ПС, которая в России занимает первое место среди (после Google), и является несомненным лидером среди российских браузеров. Сегодня это не только эффективная ПС, но и масса удобных для пользователя сервисов.

Заведя всего один аккаунт в системе (ваш почтовый ящик) вы получаете доступ к таким сервисам как , возможность вести собственный блог, приобретать авиабилеты, хранить файлы на диске и делиться ими с другими пользователями и т.п.

Поиск возможен не только по запросу в привычной поисковой строке, но и в каталоге сайтов. Это тематический рубрикатор, где, выбрав раздел, вы получаете результаты выдачи по нужной тематике. Именно поэтому если у вас уже есть виртуальное представительство, не забудьте включить его в базу. Для этого нужно просто заполнить информацию на этой странице: https://yaca.yandex.ru/add_free.xml.

Для вебмастера здесь есть масса всевозможных вкусностей, которые значительно облегчают работу:

  • Метрика позволяет эффективно анализировать площадки, учитывая не только количество посетителей, но и их активность. Учитывается и скорость загрузки страниц – важный параметр оптимизации. Для индивидуализации получаемых отчетов вы можете использовать фильтры.
  • Директ — это служба контекстной рекламы, помогающая вам в продвижении площадки, если ваша цель состоит в увеличении популярности, или заработке на посещаемости ресурса, если вы размещаете на нём объявления. Это одна из крупнейших рекламных сетей в Рунете, поэтому не стоит недооценивать её как источник трафика.
  • Wordstat нужен для получения статистики запросов по интересующим вас ключевым словам. С его помощью можно подобрать базовые ключи ещё до начала работы.

Основной инструмент продвижения – панель вебмастера. Здесь можно отследить факт индексации системой, провести анализ позиций сайта в рейтинге ПС, добавить в систему созданную карту сайта, увидеть региональные различия в результатах выдачи и т.п.

После авторизации в сервисе (войти с логином и паролем от почтового ящика Яндекс) необходимо добавить ресурс и подтвердить свои права на него. Для этого на главной странице вебмастера: https://webmaster.yandex.ru/ нажимаем кнопку «добавить сайт» и вводим туда нужные данные. Для подтверждения своих прав, вам потребуется добавить на сервер файл с указанным программой содержимым и дождаться проверки роботом.

После этого ваши возможности существенно расширятся. К примеру, пользователи, прошедшие подобную верификацию, могут добавлять виджеты на главную страницу поисковика. Изучить варианты использования всех служб можно с помощью специального курса для вебмастеров, материалы которого доступны здесь.

Зачем нужны обновления в Яндексе?

Обновления, или иначе апдейты – ключевой момент в продвижении в этой поисковой системе. Неслучайно все владельцы ресурсов ждут новостей о них с особым вниманием. Это общее обновление поисковой базы, в результате которого меняются позиции сайтов в рейтинге ПС.

В ходе данного процесса происходит учёт изменений, внесённых владельцем с момента предыдущего апдейта, в результате следует повышение или понижение места в рейтинге. Если при анализе ресурса найдены серьёзные нарушения, возможен бан, то есть исключение из результатов поиска.

Вновь попасть в него можно только при следующем апдейте, если нарушения будут устранены. Таким образом, в промежутке между ними результаты выдачи по конкретным запросам не изменяются.

Возможно, при первом знакомстве алгоритм взаимодействия с данным поисковиком выглядит сложным. Однако, приложив определённые усилия, в нём вполне реально разобраться, даже не имея опыта продвижения. Надеюсь, что вам было интересно. Не пропустите — новые полезные материалы на моём блоге уже совсем скоро – подписывайтесь на обновления! Пока-пока.

С уважением, Роман Чуешов

Самое простое применение поисковой системы, это поиск текстовых файлов на собственном компьютере. Нечто вроде дополнения к файловому менеджеру. Вещь очень нужная и полезная. Вы вводите слова, содержащиеся в тексте документа, вам выдается список файлов. Такие системы, пригодны для поиска в массиве из нескольких тысяч небольших документов, расположенных на ПК пользователя. Эти системы ищут только документы, для поиска информации, например справочного характера, они непригодны.

Поисковые системы для корпоративных пользователей. Такие программы предназначены для работы с массивами текстовых документов предприятия имеющих объемы от нескольких гигабайт до нескольких десятков гигабайт. Кроме того, такие программы обязательно реализованы в сетевом варианте, при котором доступ к базе данных на сервере локальной сети, осуществляется с рабочих станций сотрудников.

Поисковые системы для интернет проектов. Предназначены для поиска htmlдокументов в Интернете. Рассчитаны на упрощенный поиск в большом количестве небольших документов. Результат поиска в таких системах – список ссылок наhtmlфайлы в сети плюс короткие цитаты из контекста, обычно по одной. Из-за больших объемов информации в сети эти программы должны иметь очень высокую скорость поиска. Из-за большого количества мусора в сети, необходима сортировка выдачи по степени релевантности или другим критериям (например рейтингу сайта).

Самое сложная задача, это поиск информации в больших полнотекстовых массивах. В базы данных таких систем могут закачиваться любые текстовые источники информации, в том числе большого объема: энциклопедии, справочники, архивы периодических изданий, целые библиотеки специальной литературы, архивы документов корпораций, специализированные архивы типа исторических, патентных, судебных, расшифровки разговоров, протоколы и многое другое. Если в ответ на Ваш конкретный запрос система выдаст ссылку на энциклопедию, то это Вряд ли Вас обрадует. Если в этой энциклопедии сто ответов на запрос, то система должна обработать каждый и выдать отдельно все соответствующие тексты. Такая система должна искать не просто документы, а информацию, содержащуюся в них.

Если поисковая система предназначена для индексации и поиска информации в глобальной сети или для доступа к большим хранилищам текстовой информации, объёмом до десятков терабайт, то программное обеспечение системы разрабатывается специально для комплекса серверов, в качестве которых используются мощные специализированные компьютеры типа кластерных систем, имеющих десятки параллельно работающих процесооров и большой объем оперативной памяти. Например, поисковая система Google в качестве аппаратной базы использует сеть из нескольких тысяч таких суперкомпьютеров, размещенных по всему миру.

Программы для различных категорий пользователей

Программа для реализации собственного проекта. Обычно создается для поисковой системы в интеренете, интранет сети большой организации, крупного банка текстовых данных с доступом через сеть (например национальная библиотека). Для реализации проекта создается команда проектировщиков, программистов и т.п., которая самостоятельно или с посторонней помощью создает, сопровождает и развивает систему.

В случае успешно созданного проекта, комплекс программ может быть доработан до необходимой степени универсальности и использован для разработки поисковых систем на заказ. Самостоятельно такой программный комплекс не поставляется, так как требует конфигурации и настройки программных средств под требования заказчика, частичной доработки программ, постоянного сопровождения на случай сбоев системы.

Если программный комплекс доработан настолько, что -покрывает потребности большого круга пользователей, не требует постоянного сопровождения разработчиков, имеет программный интерфейс, доступный программистам среднего уровня, сопровождается качественной документацией, не использует чужих компонентов без лицензии, то он может поставляться на рынок как инструментарий разработчика. В этом случае фирма-поставщик имеет более-менее определенные цены на свою продукцию. Обычно имеется несколько стандартных версий, представляющих урезанные варианты полной конфигурации.

Программы для конечного пользователя. Представляют собой готовый коммерческий продукт. Имеют хорошо отработанный пользовательский интерфейс, позволяющий обычному пользователю управлять всеми функциями системы. Обычно разработаны «с нуля», без использования «чужих» программных средств. Такие программы распространяются в «коробочном» варианте по определенной цене.