Хранилища данных - статьи

         

BI по-новому


Неспособность специалистов по компьютингу с достаточной точностью определить предмет своей деятельности привела к тому, что появился монстр, многоголовая гидра «информационных технологий», каждая из которых по большей части занимается чем угодно, но только не работой с информацией. В России еще хуже, у нас есть наука информатика, ее происхождение — предмет отдельного разговора.

По существу, 99% средств ИТ работают с данными. Именно информацией, а не данными занимались очень немногие. Среди них те, кто работал в областях Business Intelligence и Knowledge Management; долгое время это были две близкие, но совершенно не пересекающиеся между собой области. Если продолжить сравнение с геофизикой и геологией, то методы BI можно уподобить геофизическим методам (не случайна схожесть названий, например data mining и text mining). Вторая область, KM и особенно ее прикладная часть, управление контентом предприятия (Enterprise Content Management), ближе к геологии. Аналогия между BI и науками о Земле состоит в том, что прежде по формальным признакам, на основе анализа данных выявляются внутренние закономерности, а потом им даются интерпретации с привлечением более широкого круга знаний.

Теперь можно ответить на вопрос, почему на фоне общего спада процветает BI. Чем сильнее аналитика, тем эффективнее использование данных. И в науках о Земле, и в бизнесе аналитика обходится на порядки дешевле накопления данных. Поэтому в условиях кризиса взоры специалистов и обратились в сторону BI: бизнес стремится повысить эффективность, уровень возврата инвестиций в систему с минимальными дополнительными вложениями. Именно в этом ключ в понимании причин феномена локального успеха BI на фоне спада в остальных технологических направления. В условиях кризиса всегда оказываются более востребованными продукты с меньшим сроком возврата инвестиций, в данном случае — средства работы с информацией. Возросший спрос на средства BI вызывает и новое предложение, получившее название New Business Intelligence (NBI).


Данное направление сложилось в результате партнерства компаний Inxight Software и Intelliseek, известных в качестве поставщиков решений для доступа к неструктурированным данным. Это две похожие небольшие, насчитывающие порядка сотни сотрудников, наукоемкие компании, но с разными корнями.

Inxight была основана в 1996 году корпорацией Xerox в рамках инициативы Xerox New Enterprises с целью дальнейшего развития технологий, созданных в исследовательских центрах Xerox Palo Alto Research Center (PARC) и Xerox Research Center Europe. Лучше родословную придумать сложно. В комплекс решаемых в Inxight проблем входят задачи работы с неструктурированными данными. Важность этого типа задач определяется тем, что свыше 85% корпоративных данных хранятся не в СУБД, а текстовых документах и файлах, Web-страницах, электронных письмах и аналогичных документах. Но поле это еще не пахано. По данным аналитиков IDC, большинство компаний не имеют адекватных средств для поиска и анализа информации в таких источниках.

Компания Intelliseek была создана Махендрой Вора и Сандаром Каджамом, которые стали соответственно ее генеральным директором и директором по технологиям. Основной программный продукт компании нацелен на выборку данных из разнообразных динамических источников и поиск данных в ресурсах разных типов. В Intelliseek вложили свои средства крупные промышленные компании, такие как Ford, Procter&Gamble и другие. Сведения еще об одном из источников финансирования Intelliseek, склоняющем к интерпретации термина Intelligence как разведка, можно найти во врезке «Защита информации vs. Информационная безопасность». В качестве примера ее практической деятельности можно назвать «анализ состояния брэндов» (brand pulse). Крупные компании с мировыми именами должны постоянно отслеживать состояние своего имени на рынке; в последние годы предназначенное для этой цели программное обеспечение активно развивается.

Появление NBI символизирует начало эпохи конвергенции двух направлений, которые до сих пор существовали независимо.


Динамика этого процесса показана на рис. 1. Классическое направление BI основывается на более традиционных для бизнеса инструментах, предназначенных для обнаружения информации в хорошо организованных и структурированных данных. За два десятилетия своего существования BI оформилось как направление, где есть известные технические и алгоритмические принципы, существует сообщество специалистов. Важно и то, что сложились подходы, позволяющие оценить рациональность инвестиций (return on investment, ROI). В то же время управление знаниями до сих пор остается аморфной областью, с довольно большой прослойкой специалистов, как у нас, так и за рубежом, имеющих спекулятивную ориентацию в своей «проповеднической» активности. Методы KM простираются от организационных мероприятий до полнотекстового поиска и фильтрации данных, представленных на естественных языках. При том, что многим специалистам на интуитивном уровне понятна необходимость использования технологий KM, практических инструментов, имеющих экономическую оценку, пока не было.

Компания Intelliseek стала одной из первых, кто проложил мост между KM и BI, назвав свой подход New Business Intelligence. Стимулами к появлению NBI, как сказал Каджам [4], стали рост размещенных в Internet данных и эволюция технологий для агрегирования, анализа и подготовки отчетов на основании разнородных источников. Традиционные методы BI, предлагаемые компаниями Business Objects, MicroStrategy, Cognos, Informatica, Oracle, Microsoft и другими позволяют использовать не более 20% от общего количества доступных данных. Хороший обзор можно найти в [5]. C использованием NBI эта доля может быть увеличена от 50 до 60% за счет использования таких документов, как документация на изделия, исследовательские отчеты, записи о работниках. Сандар Каджам утверждает, что использование качественно иных, нежели СУБД, источников данных, позволяет существенно расширить кругозор и перейти от обработки статистики к выявлению тенденций. Свое видение проблем конвергенции KM и BI, а также их решение, в Intelliseek воплотили в двух программных продуктах — Enterprise Search Server (ESS) и BrandPulse.



Сильная сторона подхода, на котором построена идеология работы с данными предприятиями, которую предлагает Intelliseek, принципиально отличающая его от других известных, состоит в том, что в качестве исходной точки выбрано объединение KM и BI. Если отбросить маркетинговую шелуху, то легко обнаружить, что за этим лозунгом скрывается систематическое отношение к данным. На рис. 2 представлена схема, вполне справедливо названная «Информационным ландшафтом» (information landscape), где общая картина данных представлена во всей своей полноте. Несмотря на очевидность, она оригинальна — подобного обобщения всех разнородных источников данных прежде видеть не удавалось. (Чаще приходится наблюдать обратное. Например, совсем недавно мне довелось присутствовать при общении разработчиков систем обработки данных для страхования потенциальными заказчиками. Разработчики предлагают решения на основе CRM или ERP, а заказчики пытаются описать реальную информационную картину. Результат — взаимное «мимоговорение».) В информационном ландшафте, предложенном Intelliseek, все потенциальные источники данных разделены на две основные группы: собственные данные предприятия и данные, источником которых является Internet. Далее корпоративные данные делятся на структурированные и неструктурированные. К структурированным данным относятся те, которыми чаще всего оперируют в информационных системах, их собирают и обрабатывают в рамках приложений категорий EID (enterprise information data), CRM (customer relationship management), SCM (supply chain management), ERP (enterprise recourse planning) и др. Эти данные хранятся в базах данных, они подвергаются оперативной аналитической обработке (online analytical processing, OLTP), сохраняются и архивируются в хранилищах данных для того, чтобы можно было в дальнейшем выполнять аналитическую обработку средствами BI и DSS и получать в итоге проанализированные данные, отчеты и выполнять дальнейшую раскопку данных. К неструктурированным данным относятся зафиксированные результаты взаимодействия (collaboration), потоков работ (workflow), управления документооборотом и другие авторские материалы.




Они существуют в виде электронных писем, контрактов и предложений, аудио- и видеофайлов, руководств, чертежей, маркетинговых материалов, описаний продуктов. Эти данные по совокупности образуют внутреннее знание организации.

Данные из Internet можно разделить на четыре подмножества. Основную их часть составляют данные из видимой и невидимой частей Web. В видимой части находится все то, что можно найти поисковыми машинами, т. е. собственно поисковые машины и сайты партнеров, конкурентов, государственные и т.д. Состав невидимой части Web шире, там находятся базы данных, чаты и доски объявлений, «веблоги», подписные журналы, обзоры и т.д. Меньшую часть представляют собственные сети Usenet и peer-to-peer (P2P).

Сведение вместе структурированных и неструктурированных данных — первый и наиважнейший шаг к объединению KM и BI. После того как создана объединенная картина информационного пространства, возникает естественный вопрос, как ею пользоваться? Очевидно, что точка входа должна быть построена на основе портальных технологий. На начальном этапе количество различных корпоративных порталов в пределах даже одного предприятия измерялось десятками. Сейчас наблюдается процесс консолидации порталов; например, совсем недавно компания Sun Microsystems сообщила, что количество используемых в ней порталов сокращено с 56 до 2. На самом деле нужна единственная точка входа ко всем виртуализированным корпоративным данным.

Пока реально ничего другого для доступа к данным кроме поисковых машин не существует. Массовое использование Сети наглядно это доказало. Решение этой задачи предложено Intelliseek в форме «корпоративной поисковой структуры» (Enterprise Search Framework, ESF) и «корпоративного поискового сервера» (Enterprise Search Server, ESS). Совместно они образуют информационную систему, которая имеет фирменное название — «настоящий корпоративный поиск» (True Enterprise Search).

ESF представляет собой многоуровневую систему.

Нижний уровень — интегрированный поиск (Federated Search, FS), иногда называемый также распределенным, обеспечивает поиск по разным источникам данных и упорядочивание полученных результатов.


Работу FS поддерживают четыре типа технологий:

  • Brokering - передача запросов в поисковые машины и получение результатов;
  • Bridging - установление связей с базами данных;
  • Full-Text Indexing - полнотекстовая индексация;
  • Catalog Building - создание каталогов для полуструктурированного и неструктурированного контента.

    Следующие уровни FS:

  • адаптивное обучение (Adaptive Learning), реализующее настройку маршрутизации запросов по содержанию запросов и типам источников данных;
  • анализ результатов (Result Analysis) обеспечивает фильтрацию и отсеивания ошибочных, несоответствующих запросам результатов;
  • отслеживание и установка контрольных точек (Tracking & Alerts)дает пользователю возможность самому корректировать процедуры поиска;
  • упорядочивание (Categorization) - средство для организации полученных результатов;
  • публикация знаний (Knowledge Publishing)- фиксация результатов работы пользователей;
  • моделирование интересов пользователя (User Interest Modeling);
  • адаптивная персонализация (Adaptive Personalization);
  • представление (Presentation), технология построена на стандартных методах XML/XSLT;
  • портальные адаптеры (EIP/Portal Adapters);
  • администрирование.

    Компания Intelliseek в настоящее время предлагает три программных продукта:

  • Enterprise Search Server (ESS) - основной продукт, обеспечивающий настоящий корпоративный поиск" и управление корпоративными знаниями;
  • BrandPulse - продукт, построенный на платформе ESS и служащий для анализа состояния торговой марки;
  • ExpressFeedback - новое предложение Intelliseek, служащее в качестве средства обратной связи для анализа отношений с покупателями.

    NBI вполне можно рассматривать как одно из первых проявлений наметившегося процесса разделения корпоративных систем на два взаимодополняющих компонента: платформа, выполняющая все функции работы с данными, и надстройка, обеспечивающая перевод этих данных в информацию, воспринимаемую человеком. Литература

  • Kevin Strange, Business Intelligence in 2003: Year of the "Shake-Up".


    Gartner Group, 2002, December.
  • Business Portals: A Definition, TRIP REPORT Delphi Group Portals Seminar. The Fairmont, San Francisco, 2002, February 12-13.
  • Oracle9i Application Server Portal Handbook, Overview of Enterprise Information Portals.
  • Sundar Kadayam, The Promise of Knowledge Management, the ROI of Business Intelligence. KMWorld, 2002, January.
  • Jennings, Defining The Document and Content Management Ecosystem. Butler Group, September 2002.
  • Leveraging Knowledge From the Extended Enterprise, Intelliseek.

    Данные vs. Информация

    В компьютинге до сих пор нет точного определения того, что такое данные, что такое информация и чем данные отличаются от информации. Более пятидесяти лет назад с легкой руки Клода Шеннона и Джона фон Неймана, которым нужно было придать больше наукообразия теории передачи сигналов, была введена теория информации. С тех пор словом «информация» пользуются совершенно произвольно, не проводя разделение на данные и информацию, хотя это явно не одно и тоже. Даже не углубляясь в суть, доказать это совсем просто. Возьмем две книги формально равные по объему, содержащихся в них данных (т.е. с равным числом знаков); пусть одна будет доброкачественным детективом, а вторая — серьезным литературным произведением. Сравним повествования Бориса Акунина, исключая триптих о Пелагие, и «Мастера и Маргариту» Михаила Булгакова. (Это вовсе не критика, Акунина следует признать мастером своего жанра — дело в жанре, как таковом.) Детективы читаются легко, а процесс чтения очень похож на перекачку данных, он может идти непрерывно, поскольку в процессе чтения совсем не нужно привлекать дополнительную информацию и вызывать воображение. За читателя все сделано, в этом особая прелесть детектива. К тому же процесс конечен — трудно представить себе читателя, за исключением группы преданных фанатов, который со временем возвратится к прочитанному и будет вдумчиво перечитывать приключения Эрнеста Фандорина — достаточно один раз перекачать данные. Но едва ли найдется такой читатель, который, прочитав первый раз «Мастера», сочтет, что все понял и не захочет вернуться к нему.


    У любого возникает естественное желание прочитать по отдельности каждую из сюжетных линий, эпизоды и т.п. Читающий может понять это произведение в меру своей подготовленности, в отличие от детектива оно не является самодостаточным для понимания.

    У литературоведов, кажется, есть такое понятие «материал», при формально равенстве по числу знаков произведения различаются материалом, в одном его мало, в другом больше. Иногда его так много, что понять произведение до последней точки невозможно, кто скажет, что он до конца понимает «Имя Розы» Умберто Эко или «Хазарский словарь» Панича. Или другой пример: японское трехстишие содержит вообще считанное число знаков, а как оно богато информационно, эмоционально и т.д.

    Итак, информация — это то, что открывается при взаимодействии человека с данными с привлечением знания, которым он обладает. Запись на незнакомом языке — просто данные, а на известном — информация. Полиграфия на протяжении всей своей истории стремилась облегчить процесс превращения данных в информацию, поэтому разрабатывались шрифты, книги иллюстрировались, снабжались оглавлениями и т.д. Поэтому книга в примитивном издании уступает хорошо оформленному и иллюстрированному изданию. Собственно, иллюстрации и появились, чтобы помочь понять и интерпретировать данные. Современные корпоративные порталы — это аналоги книг, они служат интерфейсом между данными и человеком, но им до культуры книгоиздания еще далеко.

    Еще один промер корректного соотношения между данными и информацией можно обнаружить в обработке результатов геофизической разведки. Здесь не приходится гадать, что является данными, что информацией, а что знанием. Для наглядности упростим реальный процесс, начинающийся с получения первичных данных и завершающийся созданием отчетов и карт расположения ресурсов. Вначале теми или иными геофизическими методами (сейсмика, аэрогеофизика, дистанционное зондирование и т.д.) набираются самые разнообразные данные (поля распределения различных элементов, электропроводность, сейсмические данные, изменение ускорения свободного падения и т.д.).


    Эти данные так и называют — «сейсмика, электроразведка, гравика», подчеркивая тем самым их принадлежность к способу получения; никому и в голову не придет назвать их информацией. Затем данные проходят первичную обработку, в которой участвует эксперт-геофизик, интерпретирующий эти данные, его инструментами являются самые разнообразные системы и средства для трансформации этих данных, в том числе экспертные системы, средства визуализации и многое другое, но главное — его знания геофизики. На выходе он передает геологам, осмысленную им геофизическую ИНФОРМАЦИОННУЮ картину исследуемой площади. Следующий за ним эксперт-геолог дает полученной информации свою интерпретацию, основанную на геологическом знании и, могут быть использованы дополнительные методы исследования. На каждом этапе данные обогащаются экспертизой, из данных формируется осмысливаемая информация, а в конечном итоге знание. Таким образом, в геофизике успешно реализована мучающая многих ИТ-специалистов триада «Данные — Информация - Знание»; здесь все произошло просто и вполне естественным путем, без использования каких-либо не слишком понятных терминов и технологий.

    Защита информации vs. информационная безопасность

    Разделение представления об информации и данных критически важно и в такой, казалось бы, неожиданной области, которую обобщенно называют информационной безопасностью. Его отсутствие в явном виде приводит к явной путанице части технических, аналитических и организационных мер в этой сфере. Совсем недавно понимание смыслового различия между данными и информацией стало осознаваться и специалистами, работающим в области безопасности. На первых порах (пока, в основном, в академической среде) начинают говорить о двух связанных направлениях. Первое — это собственно классическая защита данных в ее традиционном понимании (Information System Security Data). Второе исследует информационные принципы безопасности информационных систем (Information Principles of Information System Security). Защита данных техническими средствами по существу ближе к обеспечению физической безопасности, а защита информации в информационных системах гораздо более широкое понятие и оно не сводится к тривиальному закрытию источников информации от посторонних.


    Хорошо известно, основную часть сведений разведывательные службы получают из открытых источников с применением аналитических инструментов. Прекрасная иллюстрация того, как самые охраняемые секреты могут быть вскрыты посредством анализа публикаций в прессе, приведена в старом фильме «Три дня Кондора» с Робертом Редфордом в главной роли. В нашей стране недавно получило громкую огласку дело по обвинению в шпионаже одного ученого из Обнинска. В банальном смысле он не разведчик, хотя, возможно, и предатель, хотя занимался всего-навсего аналитикой открытых публикаций, однако столь эффективно, что вызвал заметную обеспокоенность спецслужб своими действиями. Далеко не случайно, что вопросами анализа открытых источников давно и серьезно занимается все спецслужбы. В условиях глобализации и развития электронных средств распространения данных задачи анализа приобрели особое значение.

    По понятным причинам становится доступным больше сведений о деятельности Центрального разведывательного управления США, чем о географически более близких их коллегах. Сегодня деятельность ЦРУ по защите информации приобретает в определенной степени коммерческий характер, по этой причине в 1999 году было организовано «полуоткрытое» подразделение ЦРУ, названное In-Q-Tel (). Своеобразный венчурный специалист от разведки в лице In-Q-Tel был для привлечения частных компаний к разработке технологий для сбора и анализа информации. Такой шаг сделан, по-видимому, для привлечения новых идей. Задачи, стоящие перед этой организацией, сформулированы следующим образом: «In-Q-Tel проявляет особую заинтересованность к новейшим технологиям извлечения ЗНАНИЙ из различных репозиториев и потоков данных, включая структурированные и неструктурированные ДАННЫЕ и представления релевантной ИНФОРМАЦИИ». В этой не слишком афишируемой программе ЦРУ выступает в роли инвестора в компании-«стартапы» и специальные программы. Первым начинанием стала поддержка компании Systems Research & Development (), где методы анализа, разработанные для казино, перерабатывались в разведывательных целях.


    Отнюдь не случайно, что штаб-квартира SRD находится в Лас-Вегасе, очень нетипичном месте для софтверных компаний. Всего под патронажем In-Q-Tel находится менее десятка компаний.

    Показательно, что одной из компаний, куда вложены средства In-Q-Tel, оказалась Intelliseek, разрабатывающая интеллектуальные Web-агенты и технологии вскрытия знаний. Вот что сказано по этому поводу на сайте In-Q-Tel: «За последние четыре года Intelliseek смогла изменить представления о том, что такое корпоративный интеллект, решения в области управления знаниями, поиска и открытия позволили решить фундаментальную проблему информационной перегрузки путем идентификации, релевантного поиска, постановки целей и создания персонализированного контента из Internet, и из сетей intranet и extranet».

    Что такое Невидимая Паутина

    Видимая часть Глобальной паутины (Visible Web) доступна через обычные поисковые машины, невидимая часть, очевидно, — это все остальное. Надо учесть, что распределение между частями меняется (раньше к числу невидимых относились файлы в формате pdf), но все же невидимым остается объем данных, который на порядок больше того, что можно увидеть простыми средствами. Это, прежде всего, — базы данных, допускающие доступ для поиска. В этих базах данных нет готовых страниц, которые предъявляются посредством браузера. Гораздо эффективнее и экономичнее оказывается формировать ответы в динамическом режиме, он обеспечивает возможность формирование страницы соответствующей конкретному запросу, естественно, что формируемую страницу ни один браузер найти не может. Вторая часть — исключенные страницы. Любая поисковая машина имеет определенную политику выбора индексируемых страниц. Если она обнаруживает, что по каким-то определенным признакам включение страницы в базу поисковой машины данных нецелесообразно, она ее исключает.

    Более подробно о Invisible Web см.


    Содержание раздела