serge_gorshkov


Сергей Горшков - о бизнесе в сфере ИТ

о семантической интеграции, программировании, управлении...


Previous Entry Share Next Entry
Новый взгляд на мастер-данные
serge_gorshkov
The MDM Institute, небольшая независимая организация, занимающаяся исследованием рынка MDM-решений, опубликовала обзор продукта TopBraid RDM (Reference Data Manager). Компания TopQuardant, выпускающая ПО под маркой TopBraid, известна как один из флагманов в разработке онтологического софта для промышленных применений. С текстом отчета можно ознакомиться здесь.

Отмечу, что TopBraid RDM был впервые выпущен в свет в конце декабря 2014 года, практически одновременно с нашим АрхиГраф.MDM. Я уверен, что это неспроста: разработка онтологического ПО - быстро развивающаяся область, и мысли о том, где и как наиболее целесообразно применять эти технологии, приходят разным разработчикам примерно в одно и то же время по той же логике, по которой в свое время мысль о создании радио пришла Попову, Маркони и ряду других претендентов :) Сложность и многообразие структуры эталонных данных приводит к необходимости использовать онтологические технологии - в этом мы и TopQuadrant едины. Дальше, однако, начинаются различия.

Использованием аббревиатуры RDM компания TopQuardant подчеркивает особенности состава информации, для хранения которой разработано их решение. Под справочной информацией (в русскоязычной литературе - НСИ) традиционно понимаются классификаторы, различного рода стандартные списки, перечисляемые значения. Состав мастер-данных шире: в них может входить и информация, специфичная для более узкого бизнес-контекста, такая как каталоги продукции, конкретных единиц активов, клиентов, персонала и т.д.
Среди достоинств TopBraid RDM авторы отчета называют то, что система не просто хранит эталонные данные, но и обеспечивает правила перехода от локальных наборов данных тех или иных систем-потребителей, к универсальным эталонным данным. Она поддерживает версионность, предоставляет системам-потребителям расширенный инструментарий программного взаимодействия с такими данными, включая контроль безопасности. На мой взгляд, все эти функции достаточно очевидны, и их отсутствие в составе некоторых "промышленных" решений от мировых ИТ-гигантов вызывает только удивление. Во всяком случае, в нашем решении они заложены с самого начала.

Важно другое. В ходе наших работ мы пришли к пониманию неразрывности корпоративных данных. Вся совокупность информации, используемой компанией, с логической точки зрения представляет собой единый массив - даже если он физически разбит между разными хранилищами. Принципиально важным фактором становится наличие или отсутствие единой информационной модели, в соответствии с которой представлен этот массив. Если модель имеется - она облегчит интеграцию, и обеспечит управляемость всех ИТ-систем компании.
С этой точки зрения оказывается, что:

  1. Сама по себе информационная модель является неотъемлемой и важнейшей частью эталонных данных. Возможность получать от MDM-системы не только данные, но и их модель, является ключом к реализации ИТ-архитектур, устойчивых к изменению структуры обрабатываемых данных (такая возможность реализована и в TopBraid RDM).

  2. Граница между справочными данными и мастер-данными - искусственна. Нет никаких рациональных аргументов за то, чтобы разделять их хранение, способ доступа к ним.

  3. Транзакционная информация не может быть включена в состав эталонных данных, но ее структура должна определяться общей информационной моделью.

  4. Крайне желательно иметь единый программный механизм для обмена любой информацией в пределах ИТ-архитектуры, опирающийся на информационную модель.

Именно на этих положениях и основана идеология нашего продукта АрхиГраф.MDM, который, таким образом, предлагает более широкое видение места MDM в ИТ-архитектуре и состава эталонных данных.

Закончу короткой презентацией АрхиГраф.MDM, которую еще не публиковал:

  • 1
>> Граница между справочными данными и мастер-данными - искусственна.
Да, но способ их использования немного разный: атрибутика справочных данных обычно полностью задаётся в MDM-системе, а мастер-данных - только небольшая часть атрибутов в MDM (а остальные в других ИС). Это связно скорее с тем, что справочные данные обычно являются внешними для компании, а мастер-данные - внутренними, собственно созданными.

>> Транзакционная информация не может быть включена в состав эталонных данных, ...
Если транзакции происходят сильно нечасто, то они (данные) становятся сильно похожи на мастер-данные.

По первому пункту - согласен. Хотя если среди систем, объединенных общими данными, имеется аналитический компонент, то с большой вероятностью ему потребуются все атрибуты элементов мастер-данных, какие только есть.

По частоте транзакционных данных - теоретически да, если они редко возникают, то граница между ними и мастер-данными тоже становится условной. Например, для компании, работающей с крупными проектами, список проектов можно отнести как к мастер-данным, так и к транзакционным.

В нашей практике дело осложняется тем, что хранилищем мастер-данных является графовая СУБД, а в ней хранить более миллиона сущностей, на самом деле, затруднительно (см. результаты нашего бенчмарка: http://trinidata.ru/mdm_benchmark.htm). Поэтому мы решили проблему таким образом:
- структура транзакционных данных, к которым нужен общий доступ, полностью определяется структурой информационной модели,
- сами транзакционные данные хранятся в реляционной СУБД,
- над ней делается сервисный слой, который предоставляет доступ к транзакционным данным таким же образом, каким наш MDM предоставляет доступ к мастер-данным.



  • 1
?

Log in

No account? Create an account