Начальная

Windows Commander

Far
WinNavigator
Frigate
Norton Commander
WinNC
Dos Navigator
Servant Salamander
Turbo Browser

Winamp, Skins, Plugins
Необходимые Утилиты
Текстовые редакторы
Юмор

File managers and best utilites

Поисковой паук (краулер): виды и функции. Браузер паук


Паук (программа) - это... Что такое Паук (программа)?

 Паук (программа)

Поиско́вый ро́бот («веб-пау́к», краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен.

Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются поисковыми алгоритмами.

В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.

Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования.

Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью указать на его существование.

Ограничить индексацию сайта можно с помощью файла

См. также

Ссылки

Wikimedia Foundation. 2010.

Смотреть что такое "Паук (программа)" в других словарях:

  • Паук в паутине (Вавилон-5) — Паук в паутине Сериал Вавилон 5 Номер серии Сезон 2 Серия №  …   Википедия

  • Паук (пасьянс) — У этого термина существуют и другие значения, см. Паук (значения). «Паук» в среде Windows 7 …   Википедия

  • Паук (значения) — Паук: В Викисловаре есть статья «паук» Пауки (лат. Aranei)  отряд паукообразных членистоногих. Паук, или поисковый робот  программа, скачивающая веб страницы для последующего индексирования. Паук (пасьянс) …   Википедия

  • Программа входа в систему — компонент операционной системы Microsoft Windows, отвечающий за вход в систему. Содержание …   Википедия

  • Человек-паук (серия игр) — У этого термина существуют и другие значения, см. Человек паук (значения). По мотивам приключений супергероя Marvel Comics Человека паука было разработано множество компьютерных и видеоигр. Содержание 1 До 1990 х 2 1990 е 3 2000 е …   Википедия

  • Галилео (программа) — У этого термина существуют и другие значения, см. Галилео. Галилео Жанр научно популярная развлекательная программа Режиссёр(ы) Кирилл Гаврилов, Елена Калиберда Редактор(ы) Дмитрий Самородов Производство Телеформат ( …   Википедия

  • Блокнот (программа) — У этого термина существуют и другие значения, см. Блокнот (значения). Блокнот Компонент Microsoft Windows …   Википедия

  • Веб-паук — Поисковый робот («веб паук», краулер)  программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает… …   Википедия

  • Список выпусков телепередачи «Большая разница по-украински» — Содержание 1 Канал «ICTV» 2 Канал «1+1» 3 Канал «Интер» В этой стат …   Википедия

  • Цикл (программирование) — У этого термина существуют и другие значения, см. цикл. В данной статье или разделе имеется список источников или внешних …   Википедия

dic.academic.ru

виды и функции — Самая полная в Рунете энциклопедия интернет-маркетинга

Материал из Самая полная в Рунете энциклопедия интернет-маркетинга

Поисковый паук (другие наименования — робот, веб-паук, краулер) — программа поисковой системы, сканирующая веб-ресурсы для отражения сведений о них в базе данных.

С какой целью создают поисковых пауков?

Приведём элементарный пример. Представим себе Иванова Валерия, который регулярно посещает сайт http://it-ebooks.info/, где ежедневно публикуются новые электронные книги. Заходя на ресурс, Валерий выполняет заданную последовательность действий:

1) открывает главную страницу;

2) заходит в раздел «Последние загруженные произведения»;

3) оценивает новинки из списка;

4) при появлении интересных заголовков, проходит по ссылкам;

5) читает аннотацию и, если она интересна, скачивает файл.

Указанные действия отнимают у Валерия 10 минут. Однако, если тратить на поиск 10 минут в день, в месяц это уже 5 часов. Вместо этого к задаче можно привлечь программу, отслеживающую новинки по расписанию. По механизму действия она будет представлять собой простейшего веб-паука, заточенного под выполнение определенных функций. Без краулеров не выживет никакая поисковая система, будь то лидеры Google и «Яндекс» или предприимчивые стартапы. Боты перемещаются по сайтам, отыскивая сырье для поисковой системы. При этом чем с большей отдачей трудится паук, тем актуальнее результаты выдачи (рис. 1).

Рис. 1. Схема работы краулера Рис. 2. Различия в проверках краулера (схема)
Рис. 3. Пример простого файла robots.txt

Функции веб-пауков

В зависимости от поисковой системы, функции, которые мы перечислим ниже, могут выполнять один или несколько роботов.

1. Сканирование контента сайта. Функция краулера первого порядка — обнаружение вновь созданных страниц и сбор размещенной текстовой информации.

2. Считывание графики. Если поисковая система подразумевает поиск графических файлов, для этой цели может быть введен отдельный веб-паук.

3. Сканирование зеркал. Робот находит идентичные по содержанию, но разные по адресу, ресурсы. «Работник», наделенный такими должностными полномочиями, есть у «Яндекса».

Виды поисковый роботов

У поисковых систем есть несколько пауков, каждый из которых поддерживает выполнение запрограммированных функций (рис. 2).

Пауки «Яндекс»

  • Yandex/1.01.001 (compatible; Win16; I) — центральный поисковый продукт «Яндекса», который индексирует контент.
  • Yandex/1.01.001 (compatible; Win16; P) — робот, который индексирует картинки и фотографии.
  • Yandex/1.01.001 (compatible; Win16; H) — отыскивает зеркала и дубли ресурса.
  • Yandex/1.03.003 (compatible; Win16; D) — первый паук, который приходит на ресурс после добавления его через раздел вебмастера. Его задачи — проверка добавленных параметров, указанных в панели, на соответствие.
  • Yandex/1.03.000 (compatible; Win16; M) — краулер, который посещает страницу после ее загрузки по ссылке «Найденные слова» в поисковой выдаче.
  • YaDirectBot/1.0 (compatible; Win16; I) — индексирует сайты из рекламной сети «Яндекса» (РСЯ).
  • Yandex/1.02.000 (compatible; Win16; F) — бот сканирует фавиконы сайтов.

Пауки Google

  • Googlebot — центральный робот.
  • Googlebot News — бот, который находит и индексирует новости.
  • Google Mobile — анализирует версии сайтов для смартфонов.
  • Googlebot Images — веб-паук, индексирующий графику.
  • Googlebot Video — сканирует видеоролики и индексирует их.
  • Google AdsBot — оценивает страницу по качественным параметрам.
  • Google Mobile AdSense и Google AdSense — индексируют сайты рекламной сети Google.

Вежливые пауки — как научить роботов правилам поведения

Вежливыми называют краулеров, которые действуют, придерживаясь существующих правил поведения на сайте. Эти правила пишут вебмастеры, размещая их в файле robots.txt (рис. 3). Пауки, которые попадают на сайт, на начальном этапе изучают информацию в указанном файле, где перечислены страницы, содержание которых не подлежит разглашению (регистрационные данные пользователей, административные сведения). Получив указания, паук приступает к индексации сайта, либо покидает его.

В robots.txt прописывают:

  • разделы сайта, закрытые/открытые для ботов;
  • интервалы, которые паук обязан выдерживать между запросами.

Правила адресуются всем краулерам или какому-то определенному. Открыв файл http://yandex.ru/robots.txt, мы увидим: User-agent: * ... Disallow: /about.html ... Disallow: /images/* Allow: /images/$

User-Agent: Twitterbot Allow: /images

Расшифруем эти данные:

  • ни одному роботу не разрешено заходить на страницу /about.html;
  • веб-пауку Twitterbot предоставляется возможность просматривать ресурсы с адресами типа /images;
  • прочие боты могут посещать страницы, заканчивающиеся на /images/, погружение ниже уровня Disallow: /images/* запрещено.

Вежливый робот всегда представляется и указывает в заголовке запроса реквизиты, которые дают возможность вебмастеру связаться с владельцем. Для чего вводятся ограничения? Владельцы ресурсов заинтересованы в привлечении реальных пользователей и не желают, чтобы программы строили на их контенте свой бизнес. Для этих целей сайты часто настраивают на обслуживание браузерных HTTP-запросов и лишь за тем — запросов от программ.

Читайте другие статьи на тему «Поисковой паук»:

Полезные ссылки

www.optimism.ru

Пасьянс «Паук» — играть онлайн

Представляем вам новую версию пасьянса «Паук», где все расклады сходящиеся!

В пасьянсе используются 2 колоды по 52 карты. 54 карты раскладываются в 10 столбцов (4 столбца по 6 карт и шесть по 5), оставшиеся 50 складываются в 5 стопок по 10 карт лицом вниз в правой нижней части игрового поля. В каждом столбце все карты, кроме верхней, закрыты. Разрешается перемещать карты из одного столбца в другой по следующим принципам:

Если наступает ситуация, когда Вы больше не можете перемещать карты или не хотите этого делать следует кликнуть мышью на стопке карт, расположенной в правом нижнем углу экрана — Вам раздадут еще один ряд карт.

Если освободилась верхняя закрытая карта какого-либо столбца, она автоматически открывается. Как только появляется стопка из собранных по порядку карт одной масти, она автоматически убирается в дом.

Разрешается в любой момент времени, когда нет пустых столбцов, взять одну из отложенных стопок по 10 карт и раскидать эти карты по одной в каждый столбец. Цель игры — собрать все карты в дом.

Верхняя панель кнопок
Верхняя панель кнопок

Ход назад, Ход вперёд (также клавиши «стрелка влево» и «стрелка вправо» на клавиатуре) позволяют Вам двигаться по Вашему решению вперёд и назад, вплоть до самого начала.

Новая игра — начать новую игру. Повторным нажатием клавиши «Новая игра» можно пролистать игры и выбрать понравившийся расклад. Клавишами на клавиатуре «стрелка вверх», «стрелка вниз» можно двигаться по предложенным раскладам. В историю Ваших игр попадут только те расклады, в которые Вы начали играть (т.е. сделали хоть один ход).Вы можете вернуться к предыдущему раскладу, нажав на часть кнопки, обозначенную символом <.

Начать сначала — начать новую попытку.

1 масть, 2 масти, 4 масти — смена режима игры.

Автозавершение — когда расклад очевидно разложен до того состояния, когда он сходится, завершить его можно с помощью кнопки «Автозавершение».

Возможные ходы — включить подсветку жёлтым цветом карт, которыми можно сделать ход. Это не означает, что следует сделать именно этот ход, решение за Вами. При правильной игре Вы делаете не все ходы подряд, а следуете собственной стратегии.

Выключить этот режим можно повторным нажатием кнопки «Возможные ходы».

Информация на игровом поле
Информация на игровом поле

Сверху расположен список ваших попыток, с возможностью вернуться к каждой из них. Большой цифрой обозначен номер текущей попытки. Решённые отмечены красным цветом. Для перехода к другой попытке вы можете нажать на ее номер. При возврате к нерешённому раскладу вы увидите последнее положение карт. В решённых вы сможете посмотреть Ваше решение с помощью кнопок «Ход вперёд», «Ход назад».

Под списком попыток располагается информация о раскладе:

  • Номер расклада (999).
  • Рейтинг расклада (рейт 1:38) — среднее время, затраченное на решение этого расклада всеми игроками, количество решивших из числа решавших этот расклад.
  • Текущее время последней попытки (время 2:41). Если в течение 15 секунд вы не сделали ни одного хода (например, отвлеклись от игры), время останавливается. Остановленное время подсвечивается голубым цветом. Любой сделанный ход возобновляет отсчёт времени.
  • Суммарное время всех попыток (общ вр 4:30).

Зелёная точка в правом нижнем углу означает наличие у вас подключения к интернету, красная точка — его отсутствие. При отсутствии интернета вы сможете доиграть расклад, но он не сохранится в вашей истории и не будет участвовать в рейтинге, если интернет не появится, пока вы решаете расклад.

Нижняя панель кнопок
Нижняя панель кнопок

Параметры — открывает меню настроек, в котором Вы можете:

  • Выбрать очередность новых раскладов: «играть в случайном порядке» — при нажатии кнопки «Новая игра» загрузится случайный по номеру расклад, в режиме «играть подряд» загрузится следующий по порядковому номеру расклад;
  • Включить режим «только нерешённые мной расклады». Вам будут выдаваться расклады подряд по номеру или в случайном порядке с учётом этого режима;
  • Перейти к определенному раскладу, введя его номер в поле «ввести номер расклада»;
  • Выбрать уровень сложности расклада.

Все расклады — список всех раскладов со статистикой по каждому из них и сортировкой по нескольким параметрам.

Все расклады

История — возможность посмотреть всю историю ваших игр.

История
  • Колонка «Расклад» — 999 — номер расклада. При нажатии вы возвращаетесь к этому раскладу. Добавленные в избранное расклады помечены значком
  • Колонка «Комментарий» — текст комментария к раскладу. Для редактирования дважды щелкните мышью в поле комментария.
  • Колонка «Время решения / Ваше место» — 5:31 / 33 — общее время, затраченное вами на решение этого расклада, а также ваше место в рейтинге по этому времени.
  • Колонка «Дата» — дата последней попытки в раскладе.

О раскладе — информация об открытом раскладе. Здесь вы можете посмотреть информацию о раскладе, добавить расклад в избранное и оставить комментарий (только для зарегистрированных пользователей).

Рейтинг игроков — упорядоченный по количеству решённых раскладов список игроков. Для каждого игрока указана дата его регистрации, общее количество начатых раскладов и количество решённых, процент решённых раскладов и число первых мест по времени решения.

Рейтинг игроков

Авторизация / Личный кабинет — возможность войти в личный кабинет (ЛК), произвести авторизацию или зарегистрироваться.

Личный кабинет

В личном кабинете вы можете указать дополнительную информацию о себе, загрузить фото, изменить пароль, а также хранить и осуществлять личную переписку с другими зарегистрированными игроками.

Вы можете играть без регистрации в качестве гостя. После регистрации и/или авторизации вы получите доступ в личный кабинет и сможете отправлять другим игрокам личные сообщения.

Чтобы зарегистрироваться надо просто ввести имя (от 3 символов) и пароль (не менее 5 символов). Если такое имя уже зарегистрировано в игре, вам придется выбрать другое.

logic-games.spb.ru

Как работает веб-краулер (поисковой паук)

Материал из Самая полная в Рунете энциклопедия интернет-маркетинга

Основная статья: Поисковой паук (краулер): виды и функции

Как работает веб-краулер?

Функционирование поискового робота строится по тем же принципам, по которым работает браузер. Паук заходит на сайты, оценивает содержимое страниц, переносит их в базу поисковой системы, затем по ссылкам переходит на другой ресурс, повторяя вызубренный алгоритм действий. Результат этих путешествий — перебор веб-ресурсов в строгой последовательности, индексация новых страниц, включение неизвестных сайтов в базу. Попадая на ресурс, паук находит предназначенный для него файл robots.txt. Это необходимо, чтобы сократить время на попытки индексации закрытого контента. После изучения файла робот посещает главную страницу, а с нее переходит по ссылкам, продвигаясь в глубину. За одно посещение краулер редко обходит сайт целиком и никогда не добирается до глубоко размещенных страниц. Поэтому чем меньше переходов ведет к искомым страницам с главной, тем быстрее они будут проиндексированы.

Отметим, что веб-паук не делает анализа контента, он лишь передает его на серверы поисковых систем, где происходит дальнейшая оценка и обработка. Краулеры регулярно посещают сайты, оценивая их на предмет обновлений. Новостные ресурсы индексируются с интервалом в несколько минут, сайты с аналитическими статьями, обновляемые раз в 4 недели, — каждый месяц и т. п.

Как самостоятельно проиндексировать сайт?

Сайты, на которые не ведет достаточный объем внешних ссылок, паук не проиндексирует без вмешательства вебмастера. Чтобы ресурс попал в поисковую выдачу, потребуется добавить его в карту посещений краулера. Оперативная индексация сайта возможна при размещении систем веб-аналитики от поисковых сервисов: Google Analytics, Яндекс.Метрика, Рейтинг@Mail.ru.

Положительно влияют на индексацию сайта ссылки из социальных медиа, новостных порталов. Однако большой объём покупных ссылок грозит санкциями поисковых систем, к примеру, «Минусинска» от «Яндекса».

Зачем краулеров маскируют под реальных пользователей?

Владельцы ботов часто не готовы смириться с ограничениями, установленными на ресурсах. Представим ситуацию, когда паук создан для отбора и анализа сведений о 10 000 популярных картинах сайта http://kinopoisk.ru. Для отражения информации по каждому фильму потребуются, минимум, 10 запросов, в процессе необходимо:

1) открыть страницу картины для чтения описания; 2) посетить разделы «Премьеры», «Кадры», «Актеры», «Студии», «Награды»; 3) посетить имеющиеся подразделы.

С учетом ожиданий между запросами в 10 секунд на просмотр страниц уйдет 11 суток. К тому же 10 000 объектов — начальная ставка, если задача разработчиков провести обучение машины. По этой причине новых пауков маскируют под реальных пользователей. И тогда краулер в заголовке запроса представляется как браузер. Кроме скромных тружеников статистики, существуют спам-боты, которые извлекают с веб-страниц почтовые адреса для своих рассылок.

«Яндекс» обучил поискового робота анализировать JavaScript и CSS-код

«Яндекс» научил своего бота понимать коды JavaScript и CSS. Новый талант используется при анализе содержимого сайтов, при этом проверяется не только контент, но и его CSS и JavaScript коды. Новый тип индексации на начальном этапе применяется только к отдельным сайтам. Функция позволит пауку оценивать содержимое ресурса на более глубоком уровне и видеть его глазами пользователя. К перечню параметров, по которым оцениваются сайты, добавляется удобство пользовательского интерфейса.

Дополнительно краулер получит доступ к части контента, ранее закрытой для анализа. Полученные данные могут использоваться для сравнения с информацией, которая в текущий момент влияет на позицию ресурса в поисковой выдаче.

Работа паука в режиме онлайн

Поисковые роботы — ключевые компоненты поисковой системы, важные при выполнении функций, связанных с индексацией сайтов. Общая информация, добытая в ходе путешествий, образует индексную базу поисковой системы. От проворности пауков зависит качество и оперативность поиска. Как робот видит анализируемый сайт? Посмотреть на ресурс глазами веб-паука можно на сервисе http://pr-cy.ru/simulator. Воспользоваться ресурсом просто. Скопируйте адрес страницы, поместите в строку поиска и наблюдайте.

Читайте другие статьи на тему «Поисковой паук»:

Полезные ссылки

www.optimism.ru


Смотрите также

 

..:::Новинки:::..

Windows Commander 5.11 Свежая версия.

Новая версия
IrfanView 3.75 (рус)

Обновление текстового редактора TextEd, уже 1.75a

System mechanic 3.7f
Новая версия

Обновление плагинов для WC, смотрим :-)

Весь Winamp
Посетите новый сайт.

WinRaR 3.00
Релиз уже здесь

PowerDesk 4.0 free
Просто - напросто сильный upgrade проводника.

..:::Счетчики:::..