Шрифт:
Интервал:
Закладка:
В секции необходимо определить имя файла, в который будут записываться результаты индексирования, например, так:
IndexLog indexer.log
Также должен быть определен каталог, где будут размещаться индексные файлы. Если этот каталог отсутствует, при выполнении индексирования он будет создан. Если же такой каталог уже существует, и в нем находятся индексные файлы, созданные при предыдущем индексировании, они будут учтены при построении нового индекса. В какой мере они будут учитываться, определяется дополнительными директивами конфигурационного файла.
Р’С‹, наверно, помните, что "большой" Яндекс индексирует РЅРµ РІСЃРµ слова, найденные РІ документах. Существует определенный набор стоп-слов, которые игнорируются РІ процессе обработки. Рассматриваемая программа также может учитывать стоп-слова, РЅРµ подлежащие индексированию. Ртот СЃРїРёСЃРѕРє РІС…РѕРґРёС‚ РІ состав поставки РІ РІРёРґРµ файла, который РІС‹ можете самостоятельно редактировать. РџСЂРё этом необходимо учитывать лишь то, что текст РІ нем должен быть набран РІ РєРѕРґРёСЂРѕРІРєРµ Windows-1251. Директива, определяющая РёРјСЏ файла, называется stopWordFiie.
На Яндексе при просмотре результатов поиска для найденных документов присутствует ссылка Сохраненная копия, позволяющая посмотреть документ даже в том случае, если он удален с сайта. Аналогичная возможность есть и в программе Яndex.Server. Режим сохранения документов (без элементов форматирования) задается директивой storeArchive, используемой по умолчанию. Если вы не отказываетесь от использования этой опции, помните, что в этом случае архив сохраненных документов (текстов) может иметь размер до 30–40 % от общего объема проиндексированных документов.
Следующая интересная директива управляет режимом индексирования с учетом точных словоформ. Задание этого ключа ведет к добавлению в индекс информации о точных формах встречающихся в документах слов, что позволяет в языке запросов использовать оператор! поиска по точной словоформе.
При этом размер индекса увеличивается примерно в 2 раза. (В последней версии программы точные словоформы учитываются всегда.)
ПримечаниеК примеру, при использовании словоформ при поиске слова иди в результаты попали различные формы этого слова, такие как "иду", "идем", "шли", "идущий", "идет" и др. Если бы параметр задан не был, нашлись бы только точно совпадающие с искомым слова.
На начальном этапе настройки с помощью директивы Debug можно задать режим получения отладочной информации.
Области индексированияДля того чтобы поисковый сервер знал, где находятся документы, подлежащие индексированию, в конфигурационном файле описывается область индексирования — множество документов, которые индексируются с единым набором параметров. Например, каждый внешний источник данных соответствует одной отдельной области индексирования. Одной области индексирования принадлежат и все документы, путь к которым задан префиксом URL.
Область индексирования определяется секцией IndexedArea. В одном конфигурационном файле таких секций может быть несколько.
Существует три способа получения данных для индексирования:
□ чтение файлов, доступных в локальной сети, где работает индексатор, с использованием протоколов операционной системы;
□ обращение к веб-серверам по протоколу HTTP;
□ обращение к произвольному внешнему источнику данных по специальному протоколу, реализованному в модуле связи с источником данных.
Если URL получен чтением файлового каталога, содержимое документа может быть получено как чтением файла, так Рё РїРѕ протоколу http — РІ зависимости РѕС‚ настроек. Если URL получен РІ результате распознавания гипертекстовой ссылки, содержимое документа может быть получено РїРѕ протоколу HTTP. РЎ помощью чтения локального файла содержимое документа можно получить, только если соответствующий веб-С…РѕСЃС‚ принадлежит локальной сети, Рё РІ настройках индексатора указаны нужные пути. Если содержимое документа может быть получено только РїРѕ протоколу HTTP, документ считается принадлежащим внешнему хосту. Рндексатор может проиндексировать только те внешние хосты, которые СЏРІРЅРѕ указаны РІ настройках.
Способ доступа к данным для каждой секции indexedArea определяется единственным образом и должен включать одну из возможных директив. Директива HttpPrefix определяет доступ по HTTP-протоколу, директива FilePrefix определяет путь к разделу в локальной сети.
Но можно обойтись и без этих директив, если список начальных адресов (URL) будет в явном виде задан в ключе StartUrls, например, так:
- Галактика Интернет - Мануэль Кастельс - Интернет
- Как мы покупали русский интернет - Сергей Васильев - Интернет
- Wi-Fi: Все, что Вы хотели знать, но боялись спросить - А. Щербаков - Интернет
- Отзывчивый веб-дизайн - Итан Маркотт - Интернет
- Как заработать в Интернете. 35 самых быстрых способов - Ольга Фомина - Интернет
- SEO для бизнеса - Гроховский Леонид - Интернет
- Интернет для женщин - Евгения Пастернак - Интернет
- QNX/UNIX: Анатомия параллелизма - Цилюрик Олег Иванович - Интернет
- Эра Facebook Как использовать возможности социальных сетей для развития вашего бизнеса - Автор Неизвестен - Интернет
- Деловая e-mail переписка. Пять правил успеха - Тамара Воротынцева - Интернет