Category: it

Category was added automatically. Read all entries about "it".

Самое важное в этом журнале

Блог посвящен новостям и материалам на тему онтологического моделирования, Semantic Web и Linked Data, а также их применению в создании автоматизированных систем. Встречаются также материалы с личными мнениями по самым разным вопросам. Посты на личные темы перенесены отсюда на страницу в Facebook.

Читателю, пришедему сюда за онтологиями, прежде всего рекомендую краткий свод основных трудов компании ТриниДата:+ Одна повесть про жизнь и ИТ

Уберите модель данных из кода!

Сегодня был на конференции DUMP-2021. В основном присутствовал на секции DevOps, т.к. программа более интересной мне секции Back-end была на удивление слабой. На два доклада по Back-end, однако, я зашел - и был поражен вещам, которыми люди не только занимаются до сих пор, но и считают возможным об этом публично рассказывать.

Один доклад был посвящен "чистой архитектуре" - паттерну проектирования, который "углубляет и расширяет" самые кондовые идеи ООП и MVC, намертво зашивая в код структуру данных и бизнес-логику. Люди используют это в энтерпрайзе. Единственное объяснение, которое я могу найти этим практикам как минимум 30-летней идейной давности, состоит в том, чтобы брать с заказчика побольше денег за постоянную доработку кода, которая необходима при любом изменении в "автоматизируемых" такими средствами процессах.

Другой доклад был посвящен переносу одного известного публичного сервиса на GraphQL. Докладчики начали с похвального тезиса о том, что на каком-то этапе развития сервиса они столкнулись с необходимостью описать его модель данных, чтобы разные компоненты могли общаться между собой в ее терминах. В качестве решения они выбрали GraphQL, что само по себе неплохо. Но основное содержание доклада совсем не впечатлило: время, затраченное на разработку, не коррелирует со скромностью достигнутых результатов, а проблемы, которые решали докладчики, были, скажем так, простоваты.

Collapse )

Извлечение фактов из текста на естественном языке

Опубликована наша статья "От текста к фактам", в которой мы рассказываем о методах преобразования текста на естественном языке в набор фактов или SPARQL-запрос. Такие задачи возникают и при создании чат-ботов, и при разработке корпоративных систем управления знаниями, и при реализации систем автоматической обработки поступающей текстовой информации.

Традиционно большие надежды по части решения таких задач возлагаются на разные варианты алгоритмов машинного обучения, однако мы считаем, что только сочетание опоры на онтологии вместе с использованием ML способно качественно улучшить результаты по сравнению с уже достигнутыми. Какой бы совершенной не была нейросеть, она "не понимает" смысла текста, а лишь выдает в ответ на текст нечто созвучное тем словам, которые получила.

Онтологии представляют в машинно-читаемой форме концептуальный слой нашего мышления, поэтому диалоговая система, "вооруженная" ими, способна делать логические выводы и точно "понимать" смысл сказанного. Для пользователя это проявляется прежде всего в качестве ответов, которые он получает от диалоговой или поисковой системы.

Важно, что в нашей разработке онтологии используются для представления не только концептуального, но и лексического уровня текста. С помощью онтологий LEMON / Ontolex мы описываем смысловые поля, что позволяет учитывать различия смысла одних и тех же слов в разных контекстах (например, лист стали, листы документа или лист дерева).

12 ноября будем делать доклад на эту тему на форуме "Управление данными - 2020"

Новая брошюра об использовании онтологий при создании ПО

Мы опубликовали брошюру "Корпоративные автоматизированные системы на основе онтологических моделей: книга рецептов". В ней мы постарались дать целостный взгляд на использование онтологий при создании ПО, а также поделились конкретными рецептами и техническими подробностями использования платформы АрхиГраф.

Не ходите, дети, в программисты

В одной новостной рассылке процитировали одного как бы образовательного блогера, который написал на одном сайте для как бы озабоченных образованием следующий пассаж про ИТ:
"Правда заключается в том, что IT-компании вынуждены искать специалистов через интернет, потому что желающих работать на скучной, тяжёлой, бесперспективной работе мало. Те немногие, кого привлекла зарплата и мода, уходят из IT через несколько лет. Поэтому программистами чуть реже чем всегда работают очень молодые люди".

Тут можно долго издеваться над каждым словом, но внимание мое этот пост привлек не потому, что кто-то в интернете опять написал очередной бред. А потому, что кадровая проблема в ИТ действительно очень остра, и некоторый вклад в нее вносят такие вот рассуждальщики, сбивая людям ориентир.

Collapse )

О способах моделирования темпоральности

Для многих методов моделирования представление темпоральности (изменений моделируемой системы во времени) является серьезной проблемой. Можно придумать множество способов описания интуитивно понятного 3-мерного пространства, наполненного объектами, но когда возникает необходимость отразить взаимодействия этих объектов, изменение их состава и свойств описать временность их существования в целом – все становится не столь очевидно. Приходится вводить понятия Состояний и Событий, от которых недалеко и до темпоральных частей (расщепления информационного объекта, отражающего моделируемый объект, на подчиненные объекты, описывающие отдельные стадии его существования).
Все эти способы так или иначе работают, но
Collapse )

Управление доступом к разрозненным данным

Тезисы выступления на конференции «Технологии управления данными-2018», посвященного архитектуре и функциональности логической витрины данных, основанной на онтологиях.

Collapse )

8 вопросов об онтологиях и корпоративной автоматизации

Собрал в единое "интервью" наиболее часто задаваемые и важные вопросы от наших потенциальных заказчиков о том, зачем нужны онтологии в корпоративных ИТ.
Ниже - подробности об отношениях онтологий с "большими данными", машинным обучением и нейросетями, примеры успешных проектов и уникальные возможности онтологических систем.

Q: Онтологии – это ведь про открытые и связанные данные, web 3.0? Какое отношение это имеет к корпоративной автоматизации?
A: Принципы онтологий состоят в следующем:
- Дать способ формального, машинно-читаемого описания концептуальных моделей, то есть тех наборов понятий, которые мы используем, думая об окружающем мире;
- Записывать любые факты в терминах таких моделей;
- Задать правила получения логических выводов, при помощи которых машина будет получать новые факты на основе уже известных.
То есть онтологии моделируют наше логическое мышление. "Открытые данные" и web 3.0 были только первой идеей о том, как использовать на практике часть их возможностей. Потенциал онтологий гораздо шире, и сегодня они широко используются в научных исследованиях, в системах поддержки принятия решений, системах управления знаниями.

Q: Но ведь с 1970-х годов существовали экспертные системы, которые делали то же самое.
A: Экспертные системы действительно строились по похожему принципу, но во времена их популярности не было тех возможностей интеграции и автоматизированного сбора данных, которые есть сейчас. Поэтому стек современных программных продуктов, работающих с онтологиями – графовые базы данных, редакторы моделей, машины логического вывода, прикладное ПО на их основе – способен решать гораздо более широкие и важные задачи.

Q: И какие же это задачи? Например, для поддержки принятия решений существуют системы BI, витрины данных…
Collapse )

Система сбора корпоративной отчетности: онтологии + Big data

На прошлой неделе сдали в промышленную эксплуатацию еще один проект - систему сбора корпоративной отчетности одной из крупнейших госкомпаний. Функционал системы состоит в сборе с дочерних зависимых обществ информации, нужной для построения отчетов для внешних и внутренних потребителей (всего отчетов - несколько сотен). Если совсем по-простому, то раньше в компании собирали непосредственно те данные, которые в эти отчеты попадают, то есть итоговые цифры; в нашей реализации собираются исходные данные, а затем на их основании рассчитываются значения для формализованных отчетов. Это позволяет повторно использовать собираемые данные и верифицировать их.

Конечно, в основе решения лежат онтологии: они описывают структуру собираемой информации (модель предметной области) и структуру требуемого представления (модель отчетности), правила расчета показателей и правила заволнения форм. В этом проекте мы выполнили полный цикл работ - анализ, проектирование (совместно с ген. подрядчиком) и реализацию ПО на основе наших продуктов, составление всех частей модели, тестирование и ввод в эксплуатацию. Сбор данных происходит как вручную, путем заполнения форм сбора данных на портале, так и автоматизированным способом.

Главный технологический интерес в этом решении представляет связка HBase (база данных в составе стека Hadoop) и графовой СУБД. Графовая база нужна для хранения сложной и изменчивой структуры информации (отчетные формы постоянно изменяются), а кластер HBase - для того, чтобы разместить огромный объем фактических данных.

Collapse )

MongoDB для хранения данных онтологии и другие новости

Завершилась наша работа над Подсистемой поддержки принятия управленческих решений в одной большой автоматизированной системе. Здесь мы воплотили на практике и довели до индустриального уровня принцип логической витрины данных, о котором я уже писал (там, правда, было про big data, а здесь про Mongo - но и Hadoop у нас есть в другом похожем проекте, про него отдельно напишу). В общем, теперь идеи подтверждены не только реализацией, но и эксплуатацией.

Итак, представим, что у нас есть информация сложной и нестабильной структуры, для хранения и обработки которой онтологии просто необходимы. Еще и логический вывод задействован. Но при этом данных очень много (миллионы информационных объектов), они поступают непрекращающимся потоком, и работать с ними нужно с довольно высокой скоростью ответа, в реальном времени.Collapse )