Обзор: Осуществление Прибора Поиска Google в Интернет-окружающей среде

Наш корпоративный интранет - несозданная окружающая среда и с Домино Лотоса и с IIS (.Net и классическая ГАДЮКА) заявления и содержание. Мы имеем между 300,000-500,000 страницами содержания сети и документов через больше чем 1200 sites приблизительно на 30 уникальных областях. Мы имели обыкновение сделать так, чтобы Inktomi's Ультраискал Сервер 3.0 как наша интернет-поисковая машина, которая начинала быть похожей на ее возраст (купленный в 1998). Продукт Inktomi не обращался с приложениями хорошо (ДОКТОР, PPT, PDF, и т. д.), не будет ползать наши обеспеченные участки, и больше не был поддержан продавцом. Мы сделали поверхностный обзор продавцов поиска и были немедленно привлечены к 30-дневному предложению испытания Google относительно их Прибора Поиска Google (GSA). После подписания стандартного соглашения они отправили нас совершенно новая солнечная желтая единица, которую мы могли проверить в течение 30 дней прежде, чем возвратить или купить.

информация Продукта

GSA - черный box 1U стандартный стоечный сервер. черный box я подразумеваю, Google дает Вам интерфейс сети, чтобы управлять устройством, но не хотеть, чтобы Вы получили доступ к Операционной системе (тяжело настроенная Google версия Linux). Фактически, лицензионное соглашение предусматривает, что Вы не будете вмешиваться в аппаратные средства или OS прибора в любом случае. У устройства нет никакой потребности в клавиатуре, мыши или видео - все, что Вы нуждаетесь для нормальной операции, кабель сети и стандартная подводимая мощность.

GSA входит в различные ароматы, чтобы соответствовать различным потребностям, изменяющимся размером аппаратных средств и соответственно размером лицензии. (Лицензирование основано на числе URL, сползавших прибором). есть 3 различных конфигурации аппаратных средств; ГИГАБАЙТ 1001, ГИГАБАЙТ 5005, и ГИГАБАЙТ 800. Они сломаны следующим образом;

  • ГИГАБАЙТ 1001 - документы 150 КБ для $28 КБ, документы 300 КБ для $50 КБ
  • ГИГАБАЙТ 5005 - 1.5M документы для $230 КБ
  • ГИГАБАЙТ 8008 - 4M документы для $450 КБ

, Почему Google?

Как рекламируется, GSA встретил все наши потребности, являющиеся способным внести большое разнообразие в указатель filetypes, который мы имеем в нашей окружающей среде, доступ обеспеченное содержание, имея зарегистрированный API, и т. д. власть марки Google была другим большим фактором продажи. Когда мы сказали нашим пользователям, что они собирались получить основанную на Google поисковую машину, они знали, что их дни обеспокоенного поиска были закончены. Наконец, 30-дневное испытание опыт, которым управляют, который мы имели с GSA, запечатало дело. Прибор - самое легкое корпоративное решение, которое я должен был когда-либо устанавливать, формировать и поддерживать. Мы были буквально и бегущий в течение часа после открытия судоходной коробки.

Установка

Сначала мы включили нормальный кабель сети операции и затем власть. Штепсель власти на приборе - выключатель власти; включите это, чтобы включить и отключить это, чтобы выключить это. После включения этого мы ждали приблизительно 5 минут прибора, чтобы играть мелодию, которая является сигналом продолжиться. Затем, мы уже соединили свой ноутбук (набор к способу DHCP) к прибору и привели это в действие. После загружения к нашему ноутбуку и удостоверения нам назначал правильный IP встроенный сервер прибора DHCP, мы готовы формировать параметры настройки сети. Полное затраченное время (исключая установку стойки): 10 минут.

Конфигурация

Конфигурация сети, как нормальная администрация, сделана полностью через браузер и является простыми 5 процессами шага. Первые экраны спрашивают у Вас основную информацию сети; IP адрес, маска подсети, ворота по умолчанию, и DNS. Последующие экраны собирают сервер SMTP, From адрес для сообщений уведомления GSA, часового пояса, NTP (время) серверы и admin считает название/пароль. Последний шаг должен проверить несколько URL, которые Вы будете ползать, чтобы удостовериться, что Вы сделали установку правильно. После того, как заключительная конфигурация экрана обзора параметров настройки полна, и Вы можете тогда отключить свой ноутбук и добраться до хорошей части; начните ползать. Полное затраченное время: 10 минут.

Ползание участка (ков)

Используя URL, если, вся администрация GSA сделана отдаленно. После загружения с удостоверением личности/паролем мы обеспечили в предыдущем шаге, нам подарили пульт Администрации. Мы создали новую коллекцию, чтобы держать наш индекс, вставить Начните ползать from URL, скопированный, что тот же самый URL в Следуйте и Ползание только URL со Следующим patterns боксируйте и мы были сделаны. Мы сохраняли свои настройки и затем щелкали Начните crawling кнопка. Мы тогда перешли к Ползание status покажите на экране и наблюдаемый Сползавший URLs встречное увеличение. Google рекламирует это, он может сползать приблизительно 4 000 URL приблизительно через 15 минут или около этого. Мы нашли, что время ползания увеличится значительно, если будут документы (Слово, PDF, Excel, и т. д.) связаны с от тех URL.

После того, как ползание сделано, коллекция автоматически внесена в указатель и затем проверена против Служащих Предпосылок (любые критерии, которые Вы желаете использовать, чтобы решить, переместить ли внесенную в указатель коллекцию в производство), и коллекция будет или перемещена в Производство (и следовательно доступная для поиска) или перемещена в Организацию. Область Организации позволяет Вам утверждать новое ползание прежде, чем позволить пользовательскому поиску против них.

Ползающая конфигурация

После Вашего первого ползания Вы можете найти потребность возвратиться и щипнуть ползающие параметры. Google дает Вам хорошее количество контроля над тем, как участки сползались, частота, сколько нитей используется, и т. д. Для участков с безопасностью GSA поддерживает Базовую аутентификацию, и дополнительный модуль безопасности доступен, который поддерживает Установление подлинности Форм. Самые стимулирующие аспекты конфигурации для нас определяли правильную комбинацию образцов URL, чтобы исключить из поиска. Если Вы - магазин Домино и смотрящий на использование GSA, Вы, возможно, должны провести некоторое время, получая конфигурацию ползущего только право поддержать иногда замысловатые параметры последовательности вопроса Домино.

После того, как мы настроили параметры ползания и первое полное ползание, сделанное, мы сделали некоторое тестирование, чтобы видеть, захватил ли ползущий все содержание. Просмотр нашего участка и тестирование с некоторыми последовательностями похоронил глубоко в таксономии, мы всегда находили, что GSA сползал их точно. Мы также сделали некоторое тестирование с последовательностями внутри документы PDF, представления PowerPoint и т. п.. Когда мы сталкивались кое с чем, что не сползалось, осторожный анализ принудил нас обнаруживать, что мы еще должны были сделать некоторых щипание параметров настройки ползания.

Другие известные особенности

Google также дает Вам инструмент KeyMatch, который позволяет Вам определять, который вносил документы в указатель, должен появиться наверху страницы результатов для данного вопроса. Они проявляются почти тождественно к Спонсируемым Связям наверху страницы результатов Google, который все мы используем. Инструмент Синонима позволяет Вам определять дополнительные слова или фразы для вопросов поиска. Например, если кто-то ищет WCM, Вы можете предложить Содержание Сети Management наверху страницы результатов.

Особенность формата продукции позволяет Вам управлять (через XSLT) представлением результатов поиска. Вы можете использовать это для того, чтобы изменить шрифты, цвета, эмблему, заголовок, и т. д. страницы результатов. Мы были в состоянии легко удалить Cached особенность на странице результатов с некоторыми модификациями XSLT.

Инструмент Сообщения позволяет, Вы управлять сообщениями относительно поиска подвергаете сомнению по различным диапазонам времени. Это покажет Вам число поисков в день, в час, лучшие 100 ключевых слов и лучшие 100 вопросов для определенного периода времени.

Нижние стороны

GSA не для организаций, смотрящих, вносят их разделенные двигатели сети в указатель, поскольку у прибора нет никакого средства для ползающих систем файла. Это действительно слишком плохо так много борьбы компаний с огромными количествами неструктурированного содержания на сохраненном на их сетях. Конечно, есть множество других продуктов там для точно этой проблемы.

Доступ непосредственно к базам данных (e. г. SQL, Оракул, и т. д.), другая область, которая запрещена для GSA так же как любого вида интеграции с содержанием или системами управления документом.

Заключение

Прибор Поиска Google (GSA) является превосходным продуктом поиска для HTTP-доступного содержания. Это дает большой контроль над административными особенностями, такими как конфигурация ползущего и обслуживание результатов и достаточные способности сообщения также. Те, которые ищут решение объединить непосредственно с системой управления содержанием/документом, базами данных, или двигателями сети индексации, должны обратиться к другому продукту. Однако, если у Вас есть интранет или интернет-участок с большим количеством ОСНОВАННОГО НА HTML содержания, GSA может быть только, в чем Вы нуждаетесь.