Управление доступом к разрозненным данным

Тезисы выступления на конференции «Технологии управления данными-2018», посвященного архитектуре и функциональности логической витрины данных, основанной на онтологиях.

Любая крупная организация сталкивается с проблемой разрозненности накопленных ею данных. Эта проблема особенно актуальна для архивов документов, чертежей, электронных таблиц, данных измерений и другой информации, представленной в виде файлов, а не элементов данных внутри какой-либо автоматизированной системы.

Между тем, именно в этих хранилищах сосредоточена информация, использование которой в работе организации может принести существенный экономический эффект: даст возможность использовать лучшие практики, избежать ошибок, принять верные решения с учетом всех существенных факторов. Однако для того, чтобы воспользоваться такой информацией, сотрудники компании, во-первых, должны знать о том, что она существует, а во-вторых – иметь инструмент для ее быстрого и точного поиска.

Критерии такого поиска связаны со смыслом искомых элементов данных. Содержимое каждого файла в любом хранилище логически связано с теми или иными активами, контрагентами, работниками, процессами. Вся эта информация является метаданными, то есть сведениями о содержимом файла, и обычно представлена в скрытой форме: человек может получить ее из содержимого файла, его названия или положения в структуре папок. Понятно, что поиск документа по характеристикам, которые могут быть представлены в какой угодно форме или вообще отсутствовать, может занять неограниченное время без гарантии успеха. Не всегда поможет и привычный полнотекстовый поиск по содержимому документов: он применим только к документам, содержащим текст (чертеж или результаты измерений с его помощью не найти), а его результаты могут быть слишком обширны и не точны. Представим, что пользователь хочет найти все договоры с определенным контрагентом: поиск по слову «договор» и названию контрагента выдаст множество результатов, но не гарантирует, что на первых позициях окажутся именно те документы, которые имел в виду автор запроса.

А если расширить задачу и рассмотреть поиск не только в хранилищах документов, но и в базах данных, внутри автоматизированных систем на платформах, не допускающих прямой работы сторонних компонентов с их хранилищами, в удаленных сервисах? Такой поиск актуален для каждой организации, располагающей большим числом систем, но руководители компаний часто даже не ставят своему ИТ-блоку задачи его реализовать, считая это невозможным или слишком затратным.

Преобразование набора разрозненных данных в единый массив возможно путем слияния всей информации в одно физическое или логическое хранилище. Физические витрины данных на современном этапе развития технологий, характеризующимся огромными потоками ежедневно генерируемой информации, возможно реализовать только для решения конкретных, частных задач. С объединением же всей доступной информации в единый связный массив способна справиться только логическая витрина данных.

Логическая витрина данных – архитектура интегрирующей системы, при которой все данные не меняют своего местоположения, оставаясь в системах и хранилищах-источниках. Витрина имеет программный доступ к каждому источнику и «осведомлена» о структуре информации в нем. Она способна запрашивать сведения из систем-источников и преобразовывать их в соответствии с единой структурой, автоматически объединять данные, поступившие из разных источников, и представлять их пользователю. Пользователь, в свою очередь, может обращаться к витрине с запросами, которые она интерпретирует не как набор искомых слов, а как логическое выражение, как вопрос, на который должен быть дан точный ответ.

Итак:

- витрина должна уметь извлекать любые данные из любых источников по запросу;

- она должна уметь индексировать слабо структурированные источники, такие как файловые хранилища, создавая для каждого обнаруженного в них документа структурированное смысловое описание;

- пользователь должен иметь возможность «задавать вопросы» витрине, на которые она должна давать как можно более точные, а не приблизительные ответы;

- пользователь не должен беспокоиться о том, где фактически находятся те или иные данные и какова их структура;

- витрина не должна хранить все данные в одном хранилище.

Фактически, пользователь должен работать с витриной как с «одним окном», универсальной точкой доступа ко всей корпоративной информации, которая объединяется таким образом в единый виртуальный массив.

Для того, чтобы «понимать смысл» обращенных к ней вопросов, витрина должна «говорить с пользователем на одном языке». Должно существовать формализованное описание предметной области, в терминах которого пользователь и будет формулировать вопросы. Например, если организация имеет дело с трубопроводами, приборами учета и их показаниями, эти термины должны быть включены в концептуальную модель, с которой работает система. Для создания и машинно-читаемого представления концептуальных моделей применяются технологии онтологического моделирования (стандарт OWL и др.).

После того, как модель построена, в системе необходимо описать правила извлечения данных из источников и преобразования их структуры в соответствии с элементами модели. Например, если в таблице одной из баз данных хранится перечень приборов учета, в настройках витрины должно быть задано правило, говорящее о том, что каждая запись этой таблицы представляет объект типа «Прибор учета», обладающий определенными характеристиками. Информация об одних и тех же объектах рассеяна между разными источниками: например, в одном месте может храниться перечень приборов с точки зрения учета материальных ценностей, в другом – в качестве источников показаний расхода ресурсов, в третьем будет находиться проектная и эксплуатационная документация на технологическую инфраструктуру, частями которой они являются. Благодаря правилам сопоставления структуры информации витрина способна объединить все эти сведения в одну картину.

Когда витрина построена, пользователь сможет «задавать ей вопросы», ответы на которые необходимы для оптимальной организации деятельности предприятия:

В отсутствие витрины поиск ответов на подобные вопросы занял бы у пользователя длительное время, потребовал бы ручной работы с несколькими источниками информации или обращения к ИТ-специалистам. Витрина позволит ему сосредоточиться на анализе информации, а не на ее поиске.

Логическая витрина данных, безусловно, является сложной автоматизированной системой, внедрение которой требует выполнения трудоемких работ: создания адаптеров для обращения к данным различных систем, сопоставления справочников (если в организации не реализована MDM-система), создания онтологической модели и описания правил преобразования данных. Однако витрина позволит предприятию, наконец, «стать хозяином» собственных данных, извлечь пользу из огромных массивов накопленной информации, преобразовать ее в знания, непосредственно используемые для решения актуальных вопросов текущей деятельности и стратегического планирования.

К построенной витрине можно подключать новые источники данных по мере их появления в организации. Это облегчает интеграцию вновь создаваемых систем в общее информационное пространство, снижает издержки при переходе с одних продуктов на другие, поскольку благодаря витрине вся информация, содержащаяся в выводимых из активной эксплуатации системах, остается по-прежнему доступной пользователям без каких-либо специальных усилий. Витрина, наряду с MDM-решением (которое благодаря витрине может эволюционировать из хранилища эталонных справочников в хранилище общей информационной модели) и корпоративной сервисной шиной ESB, образует логическое ядро корпоративной инфраструктуры.

Несмотря на технологическую сложность, благодаря онтологическим технологиям, развитию графовых баз данных, машин логического вывода и других инструментов, создание логической витрины данных является задачей, решаемой за короткие сроки в рамках разумных бюджетов. Подтверждением этому являются реализованные нашей компанией проекты, элементами которых является логическая витрина данных.



Error

Anonymous comments are disabled in this journal

default userpic

Your reply will be screened

Your IP address will be recorded