Для чего нужны поисковики
Для чего нужны поисковые системы
Поисковая система — это совокупность различных программных и аппаратных средств, главной задачей которых является поиск информации в сети интернет. Для обычного пользователя поисковая система представляет из себя обычный веб-интерфейс, который дополнительно обладает еще функцией поиска различных данных и ресурсов сети.
В основе любой поисковой системы находится так называемая поисковая машина, которая представляет из себя комплекс программных решений для целей обеспечения функционирования поисковой машины. Как правило механизм ее действия является коммерческой тайной его разработчиков.
В настоящее время существует множество поисковых систем, самые известные из которых: Google, Nigma, «Яндекс», Bing и некоторые другие. Каждая из этих систем в своей основе имеет принцип сканирования ключевых слов. Любой ресурс или сайт сети интернет индексируется (или, говоря грубее, регистрируется) поисковой машиной не просто так, а путем заявки на индексацию к администрации того или иного поисковика. В ответ администрация озвучивает необходимые условия для этого. Как правило, условия эти довольно нестрогие и заключаются в добавлении каких-либо тегов на главной странице ресурса.
После добавления тегов поисковая машина начинает сканировать код всех страниц ресурса. Процесс будет идти гораздо быстрее и проще, если в предоставленных для индексации ресурсах указаны ключевые слова. Под ключевыми словами подразумевается совокупность слов и фраз, по которым поисковая машина при запросе от пользователя смогла бы выделить данный ресурс из совокупности других.
В настоящий момент поисковых систем в чистом виде уже не существует. Помимо самого поисковика, его разработчики предоставляют пользователям услуги электронной почты, электронных денег, систем общения между пользователями поисковика, а также ряд приятных мелочей, как мониторинг погодных условий, пробок и прочее в зависимости от вкусов разработчиков.
Поисковые системы
Поисковые системы (ПС) уже давно являются обязательной частью интернета и нашей повседневной жизни. Сегодня они громадные и сложнейшие механизмы, которые представляют собой не только инструмент для нахождения любой необходимой информации, но и довольно увлекательные сферы для бизнеса.
Функции и понятие ПС
Поисковая система – это аппаратно-программный комплекс, который предназначен для осуществления функции поиска в интернете, и реагирующий на пользовательский запрос который обычно задают в виде какой-либо текстовой фразы (или точнее поискового запроса), выдачей ссылочного списка на информационные источники, осуществляющейся по релевантности. Самые распространенные и крупные системы поиска: Google, Bing, Yahoo, Baidu. В Рунете – Яндекс, Mail.Ru, Рамблер.
Рассмотрим поподробнее само значение запроса для поиска, взяв для примера систему Яндекс.
Запрос обязан быть сформулирован пользователем в полном соответствии с предметом его поиска, максимально просто и кратко. К примеру, мы желаем найти информацию в данном поисковике: «как выбрать автомобиль для себя». Чтобы сделать это, открываем главную страницу и вводим запрос для поиска «как выбрать авто». Потом наши функции сводятся к тому, чтобы зайти по предоставленным ссылкам на информационные источники в сети.
Но даже действуя таким образом, можно и не получить необходимую нам информацию. Если мы получили подобный отрицательный результат, нужно просто переформировать свой запрос, или же в базе поиска действительно нет никакой полезной информации по данному виду запроса (такое вполне возможно при заданных «узких» параметров запроса, как, к примеру, «как выбрать автомобиль в Туле»).
Самая основная задача каждой поисковой системы – доставить людям именно тот вид информации, который им нужен. Приучить же пользователей создавать «правильный» вид запросов к поисковым системам, то есть фразы, которые будут соответствовать их принципам работы, практически, невозможно.
Именно поэтому специалисты-разработчики поисковиков делают такие принципы и алгоритмы их работы, которые бы давали пользователям находить интересующие их сведения. Это означает, что система, должна «думать» так же, как мыслит человек при поиске необходимой информации в интернете.
Когда он вводит свой запрос в поисковую машину, он желает найти то, что ему надо, как можно проще и быстрее. Получив результат, пользователь составляет свою оценку работе системы, руководствуясь несколькими критериями. Получилось ли у него найти нужную информацию? Если нет, то сколько раз ему пришлось переформатировать текст запроса, чтобы найти ее? Насколько актуальная информация была им получена? Как быстро поисковая система обработала его запрос? Насколько удобно были предоставлены поисковые результаты? Был ли нужный результат первым, или находился на 30-ом месте? Сколько «мусора» (ненужной информации) было найдено вместе с полезными сведениями? Найдется ли актуальная для него информация, при использовании ПС, через неделю, либо через месяц?
Основные характеристики поисковых систем
Полнота.
Точность.
Еще одна основная функция поисковой системы – точность. Она определяет степень соответствия запросу пользователя найденных страниц в Сети. К примеру, если по ключевой фразе «как выбрать автомобиль» найдется сотня документов, в половине из них содержится данное словосочетание, а в остальных просто есть в наличии такие слова (как грамотно выбрать автомагнитолу, и установить ее в автомобиль»), то поисковая точность равна 50/100 = 0,5.
Чем поиск точнее, тем скорее пользователь найдет необходимую ему информацию, тем меньше разнообразного «мусора» будет встречаться среди результатов, тем меньше найденных документов будут не соответствовать смыслу запроса.
Актуальность.
Это значимая составляющая поиска, которую характеризует время, проходящее с момента опубликования информации в интернете до занесения ее в индексную базу поисковика.
К примеру, на следующий день после возникновения информации о выходе нового iPad, множество пользователей обратилась к поиску с соответствующими видами запросов. В большинстве случаев информация об этой новости уже доступна в поиске, хотя времени с момента ее появления прошло очень мало. Это происходит благодаря наличию у крупных поисковых систем «быстрой базы», которая обновляется несколько раз за день.
Скорость поиска.
Наглядность.
Наглядное представление результатов является важнейшим элементом удобства поиска. По множеству запросов поисковая система находит тысячи, а в некоторых случаях и миллионы разных документов. Вследствие нечеткости составления ключевых фраз для поиска или его не точности, даже самые первые результаты запроса не всегда имеют только нужные сведения.
Это значит, что человеку часто приходится осуществлять собственный поиск среди предоставленных результатов. Разнообразные компоненты страниц выдачи ПС помогают ориентироваться в поисковых результатах.
История развития поисковых систем
Когда интернет только начал развиваться, число его постоянных пользователей было небольшим, и объем информации для доступа был сравнительно невеликим. В основном доступ к этой сети имели лишь специалисты научно-исследовательских сфер. В то время, задача нахождения информации не была столь актуальна как сейчас.
Одним из самых первых методов организации широкого доступа к ресурсам информации стало создание каталогов сайтов, причем ссылки на них начали группировать по тематике. Таким первым проектом стал ресурс Yahoo.com, который открылся весной 1994-ого года. Впоследствии когда количество сайтов в Yahoo-каталоге существенно увеличилось, была добавлена опция поиска необходимых сведений по каталогу. Это еще не было в полной мере поисковой системой, так как область такого поиска была ограничена только сайтами, входящими в данный каталог, а не абсолютно всеми ресурсами в интернете. Каталоги ссылок весьма широко использовались раньше, однако в настоящее время, практически в полной мере утратили свою популярность.
Ведь даже сегодняшние, громадные по своим объемам каталоги имеют информацию о незначительно части сайтов в интернете. Самым известным и большим каталогом в мире был DMOZ (прекратил работу 14 марта 2017 года) имеет информацию о пяти миллионах сайтов, когда база Google содержит информацию о более чем 25 миллиардов страниц.
Самой первой настоящей поисковой системой стала WebCrawler, возникшая еще в 1994-ом году.
В следующем году появились AltaVista и Lycos. Причем первая была лидером по поиску информации очень длительное время.
В 1997-ом году Сергей Брин вместе с Ларри Пейджем создал машину поисковую Google как исследовательский проект в Стэндфордском университете. Сегодня именно Google, самая востребованная и популярная поисковая система в мире.
В сентябре 1997-ом году была анонсирована (официально) ПС Yandex, которая в настоящий момент является самой популярной системой поиска в Рунете.
Доля поисковых систем
Принципы работы поисковой системы
Модуль индексирования.
Данный компонент состоит из трех программ-роботов:
Spider (по англ. паук) – программа которая предназначена для того чтобы скачивать веб-страницы. «Паук» скачивает определенную страницу, одновременно извлекая из нее все ссылки. Скачивается код html практически с каждой страницы. Для этого роботы используют HTTP-протоколы.
«Паук» функционирует следующим образом. Робот передает запрос на сервер “get/path/document” и иные команды запроса HTTP. В ответ программа-робот получает поток текста, который содержит информацию служебного вида и, естественно, сам документ.
Crawler, исследуя найденные ссылки, ищет новые документы, еще не ставшие известными поисковой системе.
Indexer (робот-индексатор) – это программа, анализирующая страницы, которые скачали пауки.
Индексатор полностью разбирает страницу на составные элементы и проводит их анализ, применяя свои морфологические и лексические виды алгоритмов.
Анализ проводится над разнообразными частями страницы, такими как заголовки, текст, ссылки, стилевые и структурные особенности, теги html и др.
Таким образом, модуль индексирования дает возможность проходить по ссылкам заданного количества ресурсов, скачивать страницы, извлекать ссылочную массу на новые страницы из полученных документов и делать подробный их анализ.
База данных
Поисковый сервер
Это самый важный элемент всей системы, потому что от алгоритмов, лежащих в основе ее функциональности, прямо зависит скорость и, конечно же, качество поиска.
Поисковые системы стали частью нашей повседневной жизни. В месяц только лишь с одного Гугла делают более 100 миллиардов запросов. Это сумасшедшие цифры, учитывая, что существуют множество других более мелких поисковиков, ну а в россии, более половины всех запросов приходится на Яндекс.
Конечно, в этом нет ничего сверхестественного, так-как ежедневно, с помощью поисковиков люди ищут различную информацию, покупают товары, выбирают выгодный кредит и ипотеку, заказывают пиццу, продвигают бизнес и т.д. Впрочем вся онлайн жизнь человека во многом зависит от них, так-как именно эти сервисы ведут нас на нужный нам сайт.
Однако давайте все по-порядку и в этом видео вы узнаете историю и как работают поисковые системы, какие вообще бывают поисковики, сколько они зарабатывают и много другое, поэтому обязательно ставьте лайк этому видео и подписывайтесь на наш канал, так, вы стимулируете нас, к созданию нового интересного контента.
Краткая история поисковых систем
Давайте начнем с краткой историей поисковиков.
Основные этапы развития поисковых систем приходятся на период с 1993 по 1998 год.
В 1993 году был создан первый поисковик в той форме которую мы знаем сегодня. Он носил название Wandex, а разработал его молодой парень по имени Мэттью Грей. Wandex сканировала сайты и искала поисковый запрос, по заголовкам страниц сайтов в интернете.
В 1994 году, основанный на технологии Wandex, поисковик WebCrawler, начал индексировать не только заголовки, ну и полный текст сайтов. Это позволило поисковику давать больше более точных результатов по запросу.
Система Yahoo, была основана в 1994 году и одним из ее крупнейших вкладов в интернет-поиск стала служба каталогов, состоящая из большой коллекции авторитетных сайтов.
В этом же году был создан поисковик Lycos, который обрел большую популярность и многие веб-мастера, добавляли свои сайты в каталог данного сервиса.
Однако все же переломный момент произошел в декабре 1995 году, когда была создана полноценная поисковая система AltaVista. Поисковик использовал 20 многопроцессорных серверов, и все они были поддержаны, самой мощной на тот момент вычислительной системой. Это была самая быстрая поисковая система, которая могла обрабатывать миллионы поисковых запросов в день.
Важным нововведением AltaVista было включение поиска естественного языка, это означало, что пользователи могли напечатать любую фразу или вопрос и получить на нее интеллектуальный ответ.
Еще не менее переломным моментом был 1996 год, когда студенты Стэнфордского университета Ларри Пейдж и Сергей Брин, решили что поисковые системы должны анализировать сайты в зависимости от того, сколько раз слова, используемые при поиске, появлялись на веб-страницах. Благодаря этому, они создали новый алгоритм под названием PageRank.
Вслед, а именно в 1998 году, вместе с полнофункциональным поисковиком появилась и сама компания Google.
Новая поисковая система, просто разнесла в хлам всех своих конкурентов и в 2002 году Google занял лидирующее положение на рынке. Начиная с 2004 года доля Google на рынке неуклонно растет, а компания ежегодно расширяется и выдает новые продукты.
Ну а компания Яндекс была основана в 2000 году и благодаря инновациям в искусственном интеллекте, Яндекс может легко работать с российской терминологией при поиске на зарубежных ресурсах, благодаря чему в отдельных нишах обгоняет зарубежные технологии.
Принцип работы поисковиков
Главная цель любого современного поисковика, это выдать максимально релевантный и полезный для пользователя поисковый результат, а в частности, сайт, в котором пользователь сможет найти нужную ему информацию или воспользоваться нужной ему услугой. Принцип работы всех поисковых систем почти одинаковый, а проходит он в 3 основных этапа: сканирование, индексирование, показ результатов поиска.
Сканирования
На этапе сканирования, специальный алгоритм изучает весь контент в интернете и пытается найти новый сайт или уже обновленный контент, а также добавить его в индекс Google. Индекс это по сути самая важная составляющая любого современного поисковика, однако о нем мы поговорим чуть позже.
Для того, чтобы отсканировать миллиарды страниц, так-как именно столько алгоритм и обрабатывает, у Google, есть программа, которая собственно и выполняет сканирование и называется она googlebot, если бот нашел новый контент, то дальше сканирует его для обнаружения ссылок ведущих на другой веб-сайт. И скажем по принципу “паутины”, он обнаруживает множество ссылающихся на друг друга веб-сайтов. Тем ни менее, бот не посещает абсолютно каждый сайт. Чтобы попасть в список проверяемых, веб-ресурс должен быть рассмотрен, как достаточно важный.
Также, в сканирование могут попасть сайты, которые зарегистрировались через специальный сервис для веб-мастеров под название Google Search Console. С помощью него владельцы веб-сайтов, могут отслеживать эффективность страниц, поисковых запросов и т.д.
Индексирование
При индексировании алгоритм пытается определить тематику сайта, какой у него контент и вообще есть ли запрещающий контент, а также алгоритм умеет распознавать текст и медиафайлы находящиеся на страницы. В процессе, специальный алгоритм под названием Panda, сканирует веб-страницу на наличие оригинального авторского контента, и в случае обнаружение, он дает страницы высокий рейтинг, если же контент скопирован или имеет множество материалов, которые нарушают авторские права, то соответственно рейтинг страницы снижают.
Одним словом, при индексировании, алгоритм проводит полный анализ контента содержащийся на сайте, а также помимо основного, существует множество и других алгоритмов, например алгоритм Penguin, который обнаруживает спам, алгоритм Page Layout, который проверят, используется ли
на сайте слишком много агрессивной рекламы или алгоритм Hummingbird, который нужен чтобы максимально точно понимать запрос пользователя, например когда вы пишите слово “погода”, чтобы не выдавалось определение термина, а показывался прогноз погоды.
Именно на этом этапе строится вся поисковая база, а именно индекс, о котором мы говорили ранее. Индекс это база данных, в котором хранится весь контент веб-сайтов. Именно сюда ссылается google, когда в очередной раз принял поисковый запрос от пользователя. То есть когда пользователь вводит “Как защитить конфиденциальность в интернете”, система анализирует всю индексную базу, которая состоит из несколько миллионов серверов по всему миру, и опираясь на него, находит наиболее релевантный источник.
Вообще. для того чтобы эффективно хранить информацию о миллиардах страниц в базе данных поисковой системы, Google использует крупные центры обработки данных в Европе, Азии, Северной и Южной Америке.
Показ результатов поиска
Как я уже говорил, когда пользователь вводит поисковый запрос, Google в своем индексе, опираясь при этом на самые разные факторы (а их на секунду более 200 штук), далее ищет наиболее подходящие результаты. К таким факторам относятся местоположение, язык, тип устройства пользователя (компьютер или телефон) и т. д.
Например, результаты по запросу «ремонт велосипедов» будут различаться в зависимости от того, находитесь вы в Москве или в Киеве. Ранжирование выполняется естественно по алгоритмам Google, и компания, никак не повышает рейтинг страниц за плату.
Результаты, которые считаются более релевантными для пользователя, намеренно получают более высокий ранг, чем результаты, которые имеют меньше шансов обеспечить адекватный ответ.
Заключение
Все 3 этапа, а именно сканирование, индексирование и показ результатов происходит не тогда, когда пользователь ввел запрос. Такая система была бы не совсем корректной, так-как поисковик, долго выдавал бы ответ, всего лишь на 1 запрос пользователя. Ну а основная задача любой поисковой системы, это дать моментальный результат.
Например 1 этап, а именно сканирование, происходит безостановочно. То есть бот работает бесперебойно 24/7, чтобы найти как можно больше источников или обнаружить обновление контента в уже найденных страницах.
Этап индексирования происходит после того, как бот добавил страницу в очередь на обработку контента. При этом в работу вступают другие алгоритмы проверки, которые я приводил ранее.
Этап показ результатов поиска происходит соответственно когда пользователь ввел поисковый запрос. При этом специальный алгоритм пытается понять запрос, не на основе ключевых слов, а на основе естественного языка. То есть чтобы когда пользователь вводил слово пицца, ему предлагались различные магазины, где они смогут его заказать.
Какие существуют поисковики помимо Google
Немногие знают, что помимо привычных Google и Яндекса, существуют и другие поисковики.
Например популярный yahoo, который славится новостными статьями в финансовом секторе, занимает около 2% всего рынка.
Поисковик от компании Microsoft под названием Bing, занимает около 3%.
На 3 месте по популярности идет поисковик Яндекс. Учитывая, что он занимает больше половины рынка в россии и определенную часть в странах СНГ, на мировом рынке он занимает около 1%.
Далее идет китайский поисковик Baidu, который также является монополистом на своем рынке. Как и Яндекс, он занимает около 1% всего рынка.
Также есть и более конфиденциальный поисковик под названием DuckDuckGo. Он не собирает персонализированную информацию о пользователе и является относительно безопасным вариантом для тех, кто не хочет, чтобы следили за его историей поиска.
Из таких интересных также могу выделить поисковик Ask.com. Он был создан в 1996 году и основным фокусом является поиск ответов на вопросы.
На отечественном рынке и вообще в СНГ, также существуют такие поисковики как Поиск mail.ru, который в последнее время, за счет изменения алгоритмов, улучшил выдачу поисковых ответов и Рамблер, который по большей части является каталогом и медийно-сервисным интернет порталом.
Как и сколько зарабатывают поисковики
Сегодня Google, это уже не просто поисковик, а универсальная технологическая компания, которая работает в широком сегменте рынка IT. Поэтому, существуют и другие источники дохода, а именно лицензионные сборы операционной системы Android, облачные сервисы Google Cloud, продажа смартфонов Google Pixel и т.д.
Также есть и множество онлайн сервисов от Google, некоторые из которых в определенной степени монетизируются тем-самым принося прибыль.
Основной доход компании, идет с рекламных интеграций на множестве площадках, например через поисковик, яндекс дзен и яндекс эфир. Однако за последний год, ввиду пандемии и всей этой истории с короновирусом, рекламные компании, намного сократились, а вот довольно таки успешный сервис яндекс такси, приносит неплохую, стабильную прибыль компании.
Заключение
Чтобы объяснить как работают поисковые системы, одного видео конечно же мало. Однако я попытался быстро и максимально просто объяснить основные базовые принципы работы поисковиков. Поэтому, если вам понравился ролик и вы хотите увидет множество подобного контента, то обязательно ставьте лайк этому видео и подписывайтесь на канал. Также не забывайте делиться своим мнением в комментариях. Ну а я как всегда не прощаюсь.
Зачем нужны поисковые системы?
Интернет – это бесконечное хранилище самой разной информации, которая обновляется ежесекундно. Каждый компьютер, имеющий подключение к сети, по сути, является одной из ячеек этого хранилища.
А информация лежит в этих ячейках не только в виде текста, но еще и в картинках, видео и аудиофайлах. Что же помогает каждый день пользователям интернета находить среди этого бесконечного числа информации то, что им нужно? Ответ прост – поисковые системы.
Что такое поисковая система?
Поисковик, поисковая машина или поисковая система – это самый главный навигатор в бесконечных океанах цифровой информации. С помощью поискового робота, который безостановочно «прогуливается» по страницам старых и только что созданных сайтов, поисковая система как бы заносит в свою память каждый отдельный текст, картинку, видео или любого другого рода файл.
Работа поисковой системы (ПС) строится на основе определенного алгоритма, который сортирует полученную информацию и соотносит её с теми или иными запросами, присваивая ей релевантность. Релевантность – это соответствие запросам.
Но не только от релевантности зависит то, попадет страница в выдачу поисковика или нет. Накладывается множество факторов: рейтинг сайта, его качество с точки зрения пользователя, правильный код страницы. И точный алгоритм работы ПС на основе этих факторов расшифровать невозможно.
Что такое позиция сайта в ПС?
Проходя индексацию, те или иные сайты попадают в базу поисковой системы. Индексация – это своеобразный официальный учет, признание того, что сайт существует (или определенная его страница). В зависимости от огромного количества факторов страница может попасть на 1000, 249, 11, 1 или любое другое место в выдаче.
Выдача – это то, что пользователь видит, вводя запрос в строку поисковой системы. Например, набирая «что такое поисковик?», человеку выдается бесконечный список страниц. Первая в списке – самая «удачливая», в ней наилучшим образом объединились все факторы, что и вывело её на лидирующую позицию.
Что влияет на эту позицию?
Конечно же, работа людей, занимающихся сайтами: вебмастеров, оптимизаторов, копирайтеров. Очень многое зависит именно от качества контента, расположенного на странице. Если на странице будет встречаться большое количество запросов – ключевых слов, — то она не попадет на первую строчку. ПС стали умными, они продуманным образом определяют полезность страницы.
Другой взгляд на актуальность ПС
Итак, поисковая машина нужна для следующего:
ПС – это мощный инструмент, не только позволяющий структурировать миллиарды терабайтов информации, но и открывающий колоссальные возможности онлайн заработка.
Почему же поисковиков так много?
Многие рядовые юзеры пользуются, как правило, одной поисковой системой. В России – это Яндекс в подавляющем большинстве случаев. Второй по популярности – Google. Но существуют и другие системы, все из которых перечислить сложно. Одни из них работают достаточно успешно, другие нет.
Почему их так много? У них разные алгоритмы поиска и индексации, но суть не в этом. Конкуренция – вот то, что каждый день заставляет даже таких гигантов, как Яндекс, развиваться и совершенствоваться, а не стоять на месте. Если этот поисковик остановится в развитии, на его место быстро придет другой. И большое количество ПС – это, скорее, хорошо, чем плохо!