В сети Интернет представлены миллиарды страниц и ею пользуются сотни миллионов людей. До появления Интернета основными источниками информации считались:
собственный опыт;
печатные издания – газеты, журналы, книги;
радио и телевидение;
опыт знакомых.
Недорогой хостинг и домен!
Cоздание собственного сайта или блога – без проблем!!! Как установить CMS для сайта? <<< Узнайте сейчас же!>>> |
Для решения серьезных вопросов нередко приходилось долго искать человека, чей опыт не вызывал бы сомнения или достаточно тщательно отбирать нужную литературу.
Краткий экскурс в бесплатные поисковые системы
Интернет моментально изменил представление о поиске информации. Оказалось, что в сети можно найти и опытных людей, и данные, которые когда-то были опубликованы в различных изданиях, и даже те, которые еще не успели дойти до типографского станка.
На начальной стадии становления Интернет число ее пользователей было невелико, а объем доступной информации сравнительно небольшим. Доступ к Интернет имели сотрудники различных университетов и лабораторий, так как сеть использовалась исключительно в научных целях. В это время задача поиска информации в сети была далеко не столько актуальной, как в настоящее время.
В сети громадное множество страниц, каждая из которых имеет свой уникальный адрес URL), и ее можно просмотреть, если правильно ввести этот «урл» в адресную строку браузера.
Никто не в состоянии запомнить миллиарды адресов и связанные с каждым из них данные. Поэтому невозможно представить сеть без навигационных сервисов – поисковых систем и каталогов. Они дают возможность пользователям найти страницы с нужной информацией.
Недорогой хостинг и домен!
Cоздание собственного сайта или блога – без проблем!!! Как установить CMS для сайта? <<< Узнайте сейчас же!>>> |
Одним из первых способов организации доступа к информационным источникам сети стало создание каталогов сайтов, в которых ссылки на ресурсы группировались в соответствии с тематикой. Одним из первых таких проектов стал сайт Yahoo, который открылся в апреле 1994 года. Когда количество сайтов в каталоге Yahoo значительно возросло, была добавлена возможность поиска информации по каталогу. Конечно, такой примитив невозможно было назвать поисковиком по той причине, что область поиска была ограничена только ресурсами, присутствующими в каталоге, а не всеми ресурсами сети Интернет.
В настоящее время каталоги ссылок практически утратили свою популярность, так как даже современные каталоги, содержащие огромное количество ресурсов, представляют информацию лишь о незначительной части сети Интернет. Самый большой каталог сети DMOZ (или Open Directory Project) содержит информацию о 5 миллионах ресурсов, в то время как база бесплатной поисковой системы, например, Google состоит из более, чем 8 миллиардов документов.
Первым полноценным поисковиком системой стал проект WebCrawler появившийся в 1994 году.
В 1995 году появились бесплатные поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в Интернет.
В 1997 году Сергей Брин и Ларри Пейдж создали Google в рамках исследовательского проекта в Стэнфордском университете. 23 сентября 1997 года была официально анонсирована бесплатная поисковая система Yandex. В настоящее время Google самая популярная бесплатная поисковая система в мире, в то время как Yandex — самая популярная в русскоязычном секторе Интернет.
Сейчас существует 3 основных международных бесплатных поисковых системы – Google, Yahoo и MSN Search. Они имеют собственные базы и алгоритмы поиска. Остальные поисковики, которых великое множество, используют в том или ином виде результаты вышеприведенных трех бесплатных поисковых систем.
В России основной бесплатной поисковой системой является Яндекс, за ним идут Rambler, Google.ru, Aport, Mail.ru и KM.ru.
Состав бесплатных поисковых систем
Почему именно поисковики заняли в Интернете самое важное место? Да, потому, что они упорядочивают хаос. Сайты и их страницы разбросаны в сети без какого-либо порядка «Читать» Интернет подряд – не представляется возможным.
За века, прошедшие со времени изобретения книг, человечество придумало только три основных способа поиска информации в необъятном числе страниц, а именно: оглавление, ссылки и предметный указатель. Для поиска нужной страницы в Интернете используются эти же способы, просто они автоматизированы и выполняются специальными программами.
Основой любого поисковика, как и обычного компьютера, являются «железо» и соответствующее программное обеспечение. Любая бесплатная поисковые системы включают в себя следующие основные компоненты:
Spider (паук) — программа, «скачивающая» веб-страницы тем же способом, что и браузер пользователя. В отличие от браузера, паук не имеет никаких визуальных компонент и работает только с html-текстом страницы.
Crawler (краулер, «путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, которые найдены на странице и выделяет все ссылки, присутствующие на странице. Основная задача заключается в том, чтобы определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Благодаря следованию по найденным ссылкам, краулер осуществляет поиск новых документов, которые еще неизвестны поисковику.
Indexer (индексатор) — программа, анализирующая веб-страницы скачанные пауками. Эта программа разбирает страницу на составные элементы и анализирует их. Выделяются и анализируются различные части страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и пр.
Database (база данных) – хранилище скачанных и обработанных страниц, где хранятся все данные, которые поисковик скачивает и анализирует. Иначе базу данных называют индексом бесплатной поисковой машины.
Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных и определяет ранжирование страниц. Она принимает решение относительно того, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы в соответствии с алгоритмами ранжирования поисковика. Отсюда очевидно, что данная информация наиболее ценна и интересна. Поэтому именно с этим компонентом бесплатной поисковой системы взаимодействует оптимизатор, который старается улучшить позиции сайта в выдаче.
Web server (веб-сервер) – осуществляет взаимодействие между пользователем и остальными компонентами бесплатной поисковой системы. В частности, он включает html-страницу с полем ввода, где пользователь может задать интересующий его запрос поиска информации. Веб-сервер также отвечает за выдачу результатов пользователю в виде html-страницы.
Недорогой хостинг и домен!
Cоздание собственного сайта или блога – без проблем!!! Как установить CMS для сайта? <<< Узнайте сейчас же!>>> |
В зависимости от типа бесплатной поисковой системы, детальная реализация компонентов может отличаться друг от друга. Например, связка Spider+Crawler+Indexer может быть выполнена в виде единой программы, которая скачивает известные веб-страницы, анализирует их и ищет по ссылкам новые ресурсы, однако всем поисковикам присущи описанные общие черты.
Как работает бесплатная поисковая система
Поисковик составляет и хранит предметный указатель Интернета, а также находит в нем заданные ключевые слова. С этой целью составляется так называемый индекс.
Для составления индекса по страницам, сначала определяется список страниц – набор адресов тех страниц, по которым будет создаваться индекс.
Поскольку сайты и их страницы беспорядочно разбросаны по интернету, то поисковику нужен толчок – с чего начать. Обычно разработчики загружают в бесплатную поисковую систему некоторый начальный список страниц сайтов, после чего поисковик собирает с каждой из заданных страниц все гипертекстовые ссылки на другие страницы и добавляет все найденные в ссылках адреса к своему первоначальному набору адресов.
Таким образом, первоначальный набор адресов страниц быстро возрастает за счет ссылок на другие ресурсы и страницы и постепенно становится очень большим.
Для составления из текста страницы индекса бесплатная поисковая система запрашивает у сайта заданную страницу и скачивает ее. Далее она выбирает все слова из скачанных текстов и располагает их в алфавитном порядке, вместе с номерами страниц и разной служебной информацией.
Все эти шаги незаметны для пользователя, так как они выполняются поисковиком. А вот сам поиск – это и есть то, что видит пользователь. Если пользователь вводит в строку поиска свой запрос, то ему выдается список ссылок на страницы в Интернете.
В чем же суть этого процесса? Когда пользователь вводит какое-либо слово или словосочетание в строку запроса, то поисковик обращается к индексу, находит в нем запись о заданном запросе, извлекает все номера страниц, относящиеся к нему, и показывает пользователю результаты поиска, т.е. список страниц.
С точки зрения бесплатной поисковой системы самые важные части страницы – это те, которые наиболее заметны для посетителя при открытии документа в браузере.
В процессе ранжирования найденных документов поисковик отдает предпочтение страницам, в тексте которых встречается точное, буквальное вхождение слов из запроса.. Морфология русского языка поддерживается всеми русскоязычными бесплатными поисковыми системами. Поэтому косвенные грамматические формы ключевых слов также будут учтены при ранжировании, но точное вхождение всегда имеет приоритет.
Если запрос поиска информации состоит из нескольких слов, то более важным будет считаться тот документ, в котором слова расположены в том же порядке, который задал пользователь, или тот, где расстояние между словами запроса будет наименьшим.
Недорогой хостинг и домен!
Cоздание собственного сайта или блога – без проблем!!! Как установить CMS для сайта? <<< Узнайте сейчас же!>>> |
Более подробную информацию о порядке работы поисковиков на доступном для понимания языке каждый может найти в книге «Оптимизация и продвижение сайтов в поисковых системах» (И.Ашманова и А.Иванова).
Основные особенности бесплатных поисковых систем
Поисковики отличаются друг от друга набором своих функций, возможностями, удобством. Большинство из них уже не являются простыми комплексами и приближаются к порталу. Они занялись созданием большого количества разнообразных сервисов, призванных удовлетворить потребности любого привередливого пользователя и удержать его на портале.
Сейчас почти все поисковики, кроме поиска информации по запросу, показывают каталог сайтов, погоду, курсы валют, карты, ТВ-программы и т.д. В этом смысле сравнивать бесплатные поисковые системы между собой не представляет смысла, так как каждый пользователь выбирает наиболее удобный набор сервисов.
Относительно собственно функций поиска информации по запросу в составе таких порталов следует отметить, что они также могут значительно отличаться числом документов в базе, возможностями поиска в дополнительных базах (поиск картинок, новостей, видео), частотой обновления данных и пр.
Например, глобальные бесплатные поисковые системы ищут по всей «мировой паутине», а отечественные в основном только по Рунету. В то же время отечественные поисковики находят больше документов на русском языке, так как они лучше знают структуру Рунета и правильнее справляются с русским языком.
Возникает вопрос – какая же бесплатная поисковая система лучше? Ответ на это вопрос находит сам пользователь, так как он зависит от решаемых задач. Тут тоже очень много параметров и различных возможностей. Отсюда выбор поисковика зависит от разных социальных факторов: известности бренда, объема рекламы, удобства и т.д. или другими словами, от того, сколько сил и средств владельцы поисковиков вложили в маркетинг, удобство и дизайн.
К примеру, Google по-прежнему лучше всех ищет место, т.е. обрабатывает навигационных запросы. Если требуется найти сайт какой-либо компании, то Google в большинстве случаев выведет его на первое место. В то же время, Yandex, наоборот, лучше обрабатывает информационные запросы. Когда пользователю все равно, где лежит информация, то Yandex с боле высокой гарантией выведет на первую страницу требуемый адрес, номер телефона, цитату и прочие кусочки информации, которые нужны пользователю, независимо от их местонахождения.
Между бесплатными поисковыми системами и специалистами по оптимизации наблюдается история непрерывных состязаний. Эта борьба между ними опирается на то, что алгоритмы определения релевантности документов никогда не будут всеобщим достоянием, поскольку это моментально повлечет за собой лавину спекуляций со стороны оптимизаторов. В то же время, оптимизаторские ухищрения воздействуют положительно на прогресс развития поисковиков, поскольку заставляют их разработчиков постоянно совершенствовать алгоритм и предотвращать новые возможные спекулятивные действия по искусственному завышению ранга страницы. Эта борьба сродни борьбе между военной авиацией и средствами ПВО.
Однако, несмотря на это, все бесплатные поисковые системы в той или иной степени подчиняются общим правилам и грамотная работа над ресурсом (без учета каких-то особенностей) приводит к хорошим показателям практически в большинстве поисковиков. В то же время, каждый поисковик имеет «свою изюминку». В этой связи ниже акцентируется внимание на некоторых особенностях основных систем.
Недорогой хостинг и домен!
Cоздание собственного сайта или блога – без проблем!!! Как установить CMS для сайта? <<< Узнайте сейчас же!>>> |
Google на сегодняшний день получила мировое признание. PageRank, используемый ею, в большей части основан на link popularity, т.е. при вычислении релевантности страницы наибольший вклад имеет число и качество ссылок на страницы с других страниц. Сейчас link popularity в той или иной степени используется во всех основных мировых бесплатных поисковых системах, а база Google используется очень большим числом других поисковиков и порталов.
Благодаря этой технологии трафик Google имеет устойчивую тенденцию увеличения. В июне 2000 г., такой Интернет-гигант, как Yahoo!, выбрал Google, в качестве поставщика результатов поиска, вместо Inktomi.
У MSN больший, нежели у других поисковиков, акцент на информационное содержимое сайта. MSN search поддерживается Microsoft и размещается по адресу http://search.msn.com/. Эта бесплатная поисковая система не имеет собственного паука ( робота) или каталога и использует данные из Inktomi, LookSmart. MSN привлекательна тем, что она используется по умолчанию, когда пользователи Internet Explorer’а вводят в адресную строку запрос поиска информации. MSN также является информационным узлом, и по данным MediaMetrix, является одним из наиболее посещаемых сайтов.
MSN, нежели другие поисковики, делает больший акцент на информационное содержимое ресурса. Проверяется объем текста, уникальность и смысловая связность (!). Так что, те, кто публикует посты методом “копи-паст” или применяет генератор случайных фраз (синонимейзер) могут на MSN даже не рассчитывать. Однако с русским текстом у этой машины есть некоторые проблемы.
Yandex является крупнейшей российской бесплатной поисковой системой. Она обрабатывает (по разным данным) от 60% до 80% всех русскоязычных запросов поиска информации и уделяет особое внимание тематическим ссылкам. Индексация в этой машине проходит медленнее, чем у Google, но в приемлемые сроки.
После 4-24 часов регистрируемая страница появляется в результатах поиска. Однако это означает лишь то, что страница поставлена в очередь на полную индексацию. Поэтому положение страницы нужно отслеживать в течение нескольких дней, пока не пройдет полная индексация. Для индексации остальных (кроме главной) страниц сайта требуется примерно 2-3 недели. Если сайт на русском языке, а домен не в зоне .ru, то Yandex все равно проиндексирует.
При создании того или иного ресурса следует учитывать, что Yandex понижает в рейтинге или исключает из индекса сайты, занимающиеся нетематическим ссылкообменом (содержащих каталоги нетематических ссылок, созданных лишь с целью повышения рейтинга сайта), а также сайты, участвующие в системах автоматического обмена ссылками.
В периоды обновлений базы, которые длятся несколько дней, выдача Yandex постоянно меняется. В такие периоды следует отказаться от каких-либо работ по сайту и дождаться стабильных результатов работы данной машины.
Еще одна особенность Yandex заключается в том, что имеются различные результаты поиска в зависимости от регистра ключевых слов (т.е. «Слово» и «слово» дают разные результаты поиска).
Rambler – наиболее загадочная бесплатная поисковая система. Занимает второе (по другим данные третье после Google) место по популярности среди российских пользователей. По имеющимся наблюдениям, понижает в рейтинге сайты, активно занимающиеся раскруткой (быстрое увеличение числа внешних ссылок). Ценит наличие терминов поиска в простом тексте страницы (без выделения различными стилистическими тегами).
Aport — полнотекстовая российская бесплатная поисковая система, т.е. она индексирует все слова, которые бы увидел на экране человек, просматривая конкретную страницу вашего сервера. В результате любое слово из текста ваших документов может служить критерием последующего поиска. Для документов HTML, кроме основного текста документа, индексируются также: заголовок документа (TITLE), ключевые слова (META KEYWORDS), описания страниц (META DESCRIPTION) и подписи к картинкам (ALT). К тому же, Aport индексирует как принадлежащие документу, тексты гиперссылок на этот документ с других страниц, находящихся, как внутри сайта, так и за его пределами, а также составленные (или проверенные) редакторами описания сайтов из каталога.
Недорогой хостинг и домен!
Cоздание собственного сайта или блога – без проблем!!! Как установить CMS для сайта? <<< Узнайте сейчас же!>>> |
Таким образом, бесплатные поисковые системы играют главную роль в популярности и продвижении проектов в сети Интернет. Несмотря на то, что сетевые ресурсы создаются в первую очередь для людей, тем не менее, это обстоятельство следует учитывать при создании своего сайта или блога. Кроме того, поисковиками проект, не имеющий своего домена, воспринимается как сайт-однодневка, поэтому есть смысл все-таки приобрести собственный домен, который предоставляет свободу в выборе хостинга.