25.08.2005 00:00
Новости.
Просмотров всего: 3890; сегодня: 2.

Поиск информации. Взгляд со стороны пользователя

Каждый из нас не один раз в своей жизни сталкивался с проблемой поиска информации. Не важно, какой источник данных мы используем: интернет, файлы на диске, база данных или глобальная информационная система какой-либо крупной компании. Проблем может быть множество: это и физический объем «базы» в которой осуществляется поиск, и неструктурированность информации, и различные типы файлов, в которых эта информация содержится и даже сложность формулировки поискового запроса. Уже сейчас объемы информации, к примеру, на отдельно взятом персональном компьютере можно сравнить с объемами текстов приличной библиотеки. А потоки неструктурированных знаний в будущем будут только возрастать, притом гигантскими темпами. Если для обычных пользователей это еще пол беды, то для крупных компаний отсутствие контроля за информацией может означать большие проблемы. Таким образом, давно возникла потребность в создании систем и технологий поиска, облегчающих и ускоряющих доступ к нужной нам информации. Таких систем множество, да и не каждая система – это уникальная технология. И какую технологию именно выбрать – напрямую зависит от тех задач, которые предстоит решать. Спрос на совершенные инструменты поиска и обработки информации все более возрастает. Что же обстоит с предложением?
Не вдаваясь в различные изюминки технологий, программы и системы поиска можно поделить на три группы. Это глобальные поисковые интернет-системы, готовые решения для бизнеса (корпоративные технологии поиска и обработки информации) и простой файловый или фразовый поиск на локальном компьютере. Различные направления – по идее различное исполнение.
Локальный поиск. С файловым поиском на отдельно взятом персональном компьютере все просто. Он не отличается особыми возможностями и какими-либо изысками, разве что выбором типа файла (медиа, текст и так далее и места поиска). Вводим имя искомого файла (или часть текста, например, документа Word) и вперед. Скорость поиска и результат напрямую зависят от того, что мы вводим в строке запроса. Интеллектуальности тут по нулям – обычный перебор наличествующих файлов на предмет соответствия. Что, в общем-то, и оправдано – зачем создавать навороченную систему для столь нехитрых нужд?
Технологии глобального поиска. Совсем иначе дело обстоит с поисковыми системами, работающими в глобальной сети. Тут уже не до перебора. Гигантские объемы (тот же Яндекс может похвастаться индексацией более чем 11 терабайт данных), специфика организации и структуризации информации и глобальная хаотичность сделают простой поиск не только неэффективным, но и долгим и трудоемким. Поэтому в последнее время так продвинулись вперед разработки именно по оптимизации и улучшению поиска. Но пока схема все еще остается довольно простой (за исключением секретных нововведений каждой отдельно взятой системы) – фразовый поиск в проиндексированной базе документов с учетом морфологии и синонимов. Само собой, такой подход работает, хотя проблемы до конца не решает. Читая десятки страниц из различных статей, посвященных улучшению поиска с помощью того же Google или Yandex, можно прийти к выводу, что без знания скрытых возможностей данных систем найти нужный документ по запросу – дело не одной минуты, а иногда и не одного часа. Проблема в том, что такая реализация «поиска» очень зависима от фразы или слова «запроса», вводимого пользователем. Чем запрос расплывчатей, тем поиск хуже. Это уже аксиома. Или догма – как угодно. Конечно, при знании и толковом использовании ключевых функций поисковиков и правильном подборе фразы, по которой ищутся документы или сайты можно добиться вполне неплохих результатов. Но это плод кропотливого умственного труда пользователя и времени, затраченного на просмотр ненужной информации, но все же содержащей «наводки» хотя бы для «апгрейда» запроса. В общем, вводим фразу, просматриваем несколько результатов, убеждаемся, что искали не так, вводим новую фразу и так до того момента, пока соответствие не становится максимальным. Но и тогда шансы найти нужный документ все еще остаются довольно низкими. Заморачиваться с «расширенным поиском» (а он представлен, в принципе, неплохим набором функций – выбор языка, формата файла и так далее) обычный пользователь не будет. Хотелось бы просто ввести слово/фразу и получить ответ. А как он будет получен – не важно. Пусть лошадь думает – у нее голова большая. Может быть, это и не к месту, но одна из функций Гугля - «Мне повезет» очень хорошо характеризует поиск с помощью существующих технологий. Но все-таки она вертится. То есть, технология работает. Пусть не идеально и не всегда как нам хочется, но если сделать скидку на сложность поиска в хаосе интернет и на объем данных, то даже приемлемо.
Корпоративные системы. Третьей в списке значатся готовые решения на базе поисковых технологий. Они предназначены для серьезных компаний и корпораций, обладающих действительно гигантскими базами данных и под завязку набитыми различными документами информационными системами. В принципе, технологии сами по себе могут использоваться и для «домашних» нужд. Например, работающий вне офиса программист найдет применение технологии поиска для разбросанных по всему жесткому диску своего компьютера исходникам различных программ. Но это частности. Основное применение данные технологии находят все же в тех случаях, когда требуется осуществлять быстрый и точный поиск в больших массивах данных и для работы с различными источниками информации. Схема работы таких поисковых систем довольно проста (хотя за ней кроется, конечно, множество уникальных методов индексации информации и обработки запроса): поиск по фразе. С учетом всех словоформ, синонимов и прочая. Что опять же приводит нас к проблеме человеческого ресурса: при использовании такой технологии (а это, для примера, линейка программ «Hummingbird» или «Verity») пользователю надо сначала составить для себя ориентировочные фразы, которые будут являться критерием поиска, и будут, по идее, встречаться в нужных документах. Но, далеко не факт, что пользователь самостоятельно сможет подобрать или вспомнить нужную фразу и опять же нет особой уверенности, что последующий поиск будет удовлетворительным.
Еще одним ключевым моментом является скорость обработки запроса. Конечно, при использовании в качестве фразы для поиска целого документа вместо одного двух слов, точность поиска увеличивается на порядок. Но на сегодняшний день такая возможность просто не использовалась из-за очень большой емкости процесса. Дело в том, что поиск по нескольким словам или небольшой фразе не даст нам точной похожести найденных документов. А поиск по фразе длиной в целый документ в существующих системах занимает слишком много времени и очень требователен к вычислительным ресурсам. Можно привести условный пример. При отработке поискового запроса по одному ключевому слову большой разницы нет, с какой скоростью будет отработан этот запрос: 0,1 секунды или 0,001 секунды, поскольку пользователь разницы и не заметит. Если же взять среднего размера документ, который содержит порядка 2000 уникальных слов, то поиск с учетом морфологии (всех словоформ) и тезаурусов (синонимов), и вывод релевантного списка найденных документов в случае с поиском по ключевым словам займет несколько десятков минут (что неприемлемо для пользователя).
Промежуточное «Итого». Как видим, существующие на сегодняшний день системы и технологии поиска документов хоть и работают (частью даже замечательно), но все же не решают основной проблемы поиска в полной мере. Если устраивает скорость, то качество поиска оставляет желать лучшего. А если поиск точный и адекватный, то это требует уйму времени и вычислительных ресурсов. Можно, конечно, решить данную задачу очевидным способом – повышением вычислительной мощности. Но, ставить в офис систему из нескольких десятков ультра-скоростных компьютеров, которые будут без перерыва обрабатывать фразовые запросы из тысяч уникальных слов, перепахивая десятки гигабайт входящей корреспонденции,


Ньюсмейкер: SearchInform — 142 публикации
Поделиться:

Интересно:

325 лет назад Петр I издал указ о праздновании Нового года 1 января
20.12.2024 13:05 Аналитика
325 лет назад Петр I издал указ о праздновании Нового года 1 января
До конца XV века Новый год на Руси праздновали 1 марта. Эта точка отсчета была связана с тем, что в марте земля пробуждалась от зимнего "сна", начинался новый посевной сезон. С 1495 года Московский государь Иван III приказал перенести празднование Нового года на 1 сентября. Причин для...
19.12.2024 19:56 Интервью, мнения
Праздник к нам приходит: как поддержать атмосферу Нового Года в офисе
Конец года — самое жаркое время за все 12 месяцев, особенно для компаний. Нужно успеть закрыть все задачи, сдать отчёты, подготовить планы, стратегии и бюджеты. И, конечно же, не забывать про праздник, ведь должно же хоть что-то придавать смысл жизни в декабре, помимо годового бонуса.  Не...
Прозвища бумажных денег — разнообразные и многоликие
19.12.2024 18:17 Аналитика
Прозвища бумажных денег — разнообразные и многоликие
Мы часто даем прозвища не только знакомым людям и домашним питомцам, но и вещам, будь то автомобили, компьютеры, телефоны… Вдохновляемся цветом или формой, называем их человеческими именами и даем понять, что они принадлежат только нам и имеют для нас...
Советская военная контрразведка
19.12.2024 17:51 Аналитика
Советская военная контрразведка
Советская военная контрразведка появилась в годы Гражданской войны и неоднократно меняла свою подчиненность, входя то в структуру военного ведомства, то в госбезопасность. 30 мая 1918 г. учрежден первый орган военной контрразведки Красной армии – Военный контроль Оперативного отдела Народного...
Защитить самое ценное: История страхования в России
18.12.2024 13:22 Аналитика
Защитить самое ценное: История страхования в России
С давних времен человек стремится перехитрить свою судьбу. Люди желают знать, что будет, чтобы вовремя подготовиться к возможным перипетиям и обезопасить свое будущее. Вот только карты и гадалки в этом вопросе бессильны, куда надежнее справиться с рисками помогают...