serge_gorshkov


Сергей Горшков - о бизнесе в сфере ИТ

о семантической интеграции, программировании, управлении...


Previous Entry Share Next Entry
Семантические новости
serge_gorshkov
Столько всего происходит, что не успеваю писать об этом. Вот главные события за последние две недели:

1. Выступил на конференции "Капитализация нефтегазовых знаний", презентация тут. На конференции были самые известные в мире ISO 15926 люди, начиная с Matthew West. Но, если честно, Америки не открыли. Зато стало гораздо больше ясности с проблемами и возможностями распространения в российской практике стандарта ISO 15926 и семантики в целом. А также с тем, что именно и как именно реализовано в плане инфраструктуры в проекте JORD, и смежных проектах - что сильно меня интересует с точки зрения текущей работы.

2. По следам конференции написал статью "ISO 15926 vs Семантика: сравнительный анализ семантических моделей". Не нашел лучшего места, куда ее определить, кроме Хабра... Туда еще просится подзаголовок "пчелы против мёда", но уж не стал нарушать тон. Эта дискуссия вообще выглядит очень странной, поскольку при фатально низком уровне проникновения в жизнь семантических технологий вообще, даже неловко обсуждать конфессиональные различия (тем более что лично я испытываю самые теплые чувства к ISO 15926 :), просто смотрю на вопрос чуть шире). Но обсуждать интересно - примерно также, как группе европейцев в плену у дикарей крайне важно было бы выяснить, кто кальвинист, а кто лютеранин.

3. Подписали договор с польской компанией Cognitum, которая выпускает семантический фреймворк Ontorion, и уже хваленный мной редактор контролируемого естественного языка Fluent Editor. Эти продукты растут прямо на глазах. Теперь мы их представители в России, а они - наши в Польше.

  • 1
Интересно, да. Можно сказать первая статья, которая хоть как-то на практике объясняет как пользоваться стандартом ISO 15926.

На мой ламерский взгляд, эти два подхода не пересекутся. Семантик веб останется для внутреннего представления данных, поскольку проще, быстрее, понятнее, вычислимее (он и так тормозной до жути). А для транспортных форматов подойдет ISO 15926 (если такие задачи возникнут в принципе; у меня не возникали пока - обычно интеграция по каким-нибудь навязанным XML-форматам).

Короче, если человек решает задачу транспортировки данных, то он будет с пеной у рта доказывать, как крут ISO 15926. А если ему внутри свои данные хранить и тем более логическим выводом по ним ходить, то тут уже неизбежно начнется придумывание своего узкоспециализированного велосипеда.

Вот! Именно отсутствие практических статей по ISO 15926 меня и расстраивало больше всего, когда я изучал этот стандарт. Теории и рассуждений о преимуществах - сколько угодно, а практики - минимум, и та вся в зарубежных публикациях. Чем больше знакомлюсь с этим стандартом, тем сильнее у меня ощущение, что многие из пишущих о нем довольно приблизительно представляют себе, как выглядит его применение в техническом плане.

А с вашим мнением по поводу сферы применения Semantic Web и 15926 - полностью согласен.
Хотя есть такая точка зрения, что "нет смысла строить внутрикорпоративную модель на придуманной онтологии, потому что вдруг потом придется включаться в обмен со внешними источниками по ISO?", она не выдерживает критики. Ибо во-первых, скорее всего, обмениваться придется гораздо меньшим числом типов данных, чем хранится в нашей внутренней модели, во-вторых, никто не мешает смапить определения внутренней модели на ИСО, и выложить на внешний фасад те данные, которыми предстоит обмениваться.


Edited at 2013-05-10 08:33 am (UTC)

Да, с практикой полная засада. Тот же Левенчук при попытке задать ему хоть какой-то практический вопрос, сходу отсылает читать мануалы на английском. Вернее подготовку к подготовке к мануалам))) И тогда, может быть, через полгода непрерывного грызения гранита науки должно снизойти просветление. Короче, таким путем оно точно не взлетит.

Скорее наоборот - семантик веб является транспортным форматом для ISO 15926.

Тут вопрос не формата - их много и они пересекаются. Вопрос в самой онтологии. Что считать классом, что индивидом и т.п.

Стрелочки от "сам насос (устройство)" всё же переверните. Упрощение упрощением, но очевидные ошибкивсё же не надо допускать!

И шаблон в роли другого шаблона тоже может создать неверное впечателение, хотя это тоже техническая подробность.

Спасибо за замечания! Первое - скорее опечатка, а второе - действительно, не уловил при изучении шаблонов. Исправил.

Вот вы пишете правильно пишете "Модель должна обеспечивать возможности расширения и масштабирования (укрупнения и детализации), без пересмотра ее онтологического ядра.", а в конце статьи почему-то этот тезис совсем упускается из виду, и всё внимание сосредотачивается на недостатках, а не на достоинствах ISO 15926. Ведь вторая часть стандарта и задает то самое онтологическое ядро, которое по задумке должно без пересмотра "натягиваться" на любые промышленные данные в пределах всего жизненного цикла. Расширение предметной области в информационной системе с реляционной СУБД сразу же приводит к пересмотру схемы БД (если не брать в расчет костыльные решения), а в системе на обычных семантических моделях - к пересмотру OWL-онтологии. Если же делать "ISO 15926 inside", то теоретически ничего пересматривать не придется - ядро и так уже максимально расширено под все потенциальные модели.

Аналогично, вы пишете про "отличный потенциал использования для передачи информации между различными организациями при помощи общего «онтологического словаря»", но дальше снова не развиваете и этот тезис. А классический подход разработки хоть схемы реляционной БД, хоть OWL-онтологии, ограничен только разрабатываемой информационной системой. И как только встает задача передать данные из одной системы в другую, то сразу возникают проблемы сопоставления этих самых схем. Хорошо, когда систем всего две и с обоих сторон есть люди, которое договорятся об этом сопоставлении. В случае же федерирования данных (например в ГИС ТЭК), такой общий онтологический словарь станет краеугольным камнем, так как об XML/RDF/SPARQL уже все давно договорились, а вот о смысле передаваемых данных нет. Если же делать "ISO 15926 outside", то мапить этот смысл придется только один раз в заведомо "резиновую" модель - теоретически даже договариваться не с кем, только консультация профессионального модельера нужна.


Edited at 2013-05-11 08:24 am (UTC)

Я старался дать взвешенную оценку достоинствам и недостаткам ISO 15926, и вывод был не в том, что стандарт чем-то плох (он просто соответствует своим целям), а в том, что на обычной модели легче выполнять вычисления. Соответственно, именно эта мысль была акцентирована в конце статьи.

Вопрос насчет ISO 15926 inside вообще чертовски интересен. С теоретической точки зрения, это правильно: действительно, при любых изменениях модели ничего не придется пересматривать. Вопрос возникает чисто с практической точки зрения: пока не могу себе представить даже самое простое корпоративное приложение (пусть CRM-систему), работающую непосредственно с семантической моделью данных (даже если она не ISO). Учитывая огромный объем прикладного кода, написанного для реляционных баз, их несравнимое с triple store'ами быстродействие и возможности оптимизации вычислений - мне кажется, этот вопрос является повесткой не сегодняшнего и не завтрашнего дня.

Что касается примера с ГИС ТЭК - согласен, никому бы наверное и в голову не пришло использовать там модель не по 15926. Но, наверное, и вычислений на этой модели не производится, она используется только для обмена данными (поправьте, если не прав)? Я в статье просто смотрю на задачу чуть шире.

Всё верно, на реляционной модели легче выполнять вычисления, чем на обычной семантической, а на ней легче чем на ISO-шной. Это важный, но только один, программистский аспект. Наверное поэтому статья именно на хабре :) Но даже программисту надо четко понимать, за что же он платит сложостью и меньшей производительностью переходя на ISO 15926. Как, например при переходе с реляционных на обычные семантические технологии, он платит общеизвестной тормознутостью SPARQL по сравнению с SQL, за возможность получать результаты ala Facebook Graph Search.

Корпоративные системы чаще всего покупаются коробками, а после внедрения допиливаются и расширяются корпоративными программистами, пусть даже с привлечением консалтинга. Если внутри коробки будет семантик веб (тот же Apache Jena или Virtuoso), то будут и соответствующие приложения. Но и здесь программист должен четко знать, что в системе нет его любимых внешних ключей и прочих ограничений целостности, но есть например возможность влегкую закодить хранение несколько номеров телефона для одного клиента.

Вычисления на больших федерированных моделях тоже нужны. Хотя если "автоматический сбор и обработку информации, хранение такой информации, обеспечение доступа к ней" реализовать в виде расшаренной папки на сервере, куда будут скидываться экселевские файлы с заранее разработанной табличной формой, то все вычисления можно сделать на макросах, без каких-либо семантических технологий. Шутка ;-)

Насчет нескольких номеров телефона (да и вообще нескольких экземпляров любых свойств) - я за это несколько лет назад получил очень больших пинков от "true" программистов, недавно тут в блоге вспоминал и жаловался :) За то, что реализовал это, еще без всякой семантики, на реляционной БД путем нарушения нормальной формы. Ай-яй-яй.

Шутка насчет расшаренной папки с экселями - далеко не шутка, по-моему. Мы знаем, что содержимое Excel'евских файлов может отвечать стандарту ISO 15926... Части 8-9 читали далеко не все, и до их появления надо же было как-то представлять информацию в соответствии со стандартом. Вот и приноровились.

"содержимое Excel'евских файлов может отвечать стандарту ISO 15926"
Вот именно, поэтому не совсем корректно сравнивать обычные семантические модели с исошными. Примерно об этом же сказано в http://dot15926.livejournal.com/43419.html
Сравнивать Semantic Web с ISO 15926 - это примерно как сравнивать HTTP с SOAP: последний сложнее, да и может теоретически обойтись без первого.

Семантик веб тоже может отлично обойтись без ISO 15926 :) Тем не менее сравнивать их можно и нужно, т.к. неспроста ведь именно RDF/OWL/SPARQL выбраны как технологии программного воплощения 15926, в частях 8-9. Значит, что-то в этих технологиях показалось авторам стандарта интересным и достойным. Понятно, что в обоих случаях речь идет о построении онтологических моделей, только стандарт дает для этого методологию, а Semantic Web - технический инструментарий. Раз мы строим модели, причем Semantic Web позволяет их строить как по принципам ISO, так и без оных, значит - есть что сравнивать.
В идеале хочется добиться понимания того, как реализовать синтез преимуществ обеих технологий. Достоинств ISOшной модели, и вычислительных возможностей Semantic Web. В противном случае результатом их скрещения оказывается Semantic Web без достоинств Semantic Web, и ISO 15926, не получивший никаких особых преимуществ от натяжки на RDF/OWL/SPARQL.

  • 1
?

Log in

No account? Create an account