Блог посвящен новостям и материалам на тему онтологического моделирования, Semantic Web и Linked Data, а также их применению в создании автоматизированных систем. Встречаются также материалы с личными мнениями по самым разным вопросам. Посты на личные темы перенесены отсюда на страницу в Facebook.
Читателю, пришедему сюда за онтологиями, прежде всего рекомендую краткий свод основных трудов компании ТриниДата:
Сегодня на конференции "Качество данных - 2022" рассказывал о проблеме истинности информации в автоматизированных системах. Упоминал треугольник Фреге и закон Гудхарта, но в целом было весело) Проблема вполне реальная, а способы ее решения - достаточно конкретные.
Мы на работе занимаемся созданием в том числе систем с элементами искусственного интеллекта (AI) - преобразованием текста в факты, диалоговыми системами и проч. Это не мешает мне быть скептически настроенным к AI и его успехам. Сейчас объясню, почему. Вся история человека - это стремление облегчить себе жизнь. Жить маленькими кочующими группами было трудно, люди осели на землю и создали государства, променяв свободу и самостоятельность на весьма относительные гарантии благополучия. Работать физически было трудно, и люди придумали множество устройств, которые облегчили работу. Правда, теперь без этих устройств подавляющее большинство людей уже не выживет. Делать условную "умственную работу" в условном офисе тоже было трудно, и люди хотят комбинированный график, "работать" 4 часа в день, а в идеале вообще ничего не делать и получать какую-нибудь ренту. Чем они занимаются в освободившееся время, когда жизнь облегчена до предела? Может, занимаются саморазвитием? Нет - в основном в игрушки играют и смотрят сериалы. В принципе вроде и бог с ними, на первый взгляд вреда от такого прогресса не так много.
Но теперь человек хочет создать искусственный интеллект, который будет думать за него, думать лучше чем он.( Collapse )
Одна из самых интересных вещей, которыми мы занимаемся в ТриниДате - превращение текста в набор осмысленных фактов. Это позволяет создавать диалоговых помощников, способных отвечать на вопросы, опираясь на данные, а также строить сложные системы поиска по документам.
Обычно такую задачу решают с помощью нейросетей, но при таком подходе возникает ряд проблем. Мы реализовали свой способ преобразования текста в запрос к графу знаний и описали его в статье на хабре https://habr.com/ru/post/587972/, а также - чуть подробнее с технической точки зрения - в черновике статьи https://arxiv.org/abs/2111.04507.
Из статьи на хабре есть ссылка на демо-версию диалогового помощника.
Если этот журнал читают люди, разбирающиеся в экономике, подскажите мне) Есть компания, которая выполняет проекты и несколько лет показывала операционную прибыль. Затем потребовалось увеличить инвестиции в развитие - создание новых продуктов и маркетинг. Благодаря накопленным запасам удалось это сделать за счет собственных средств, без кредитов. Но поскольку на периоде в год-полтора расходы стали превышать доходы, это "испортило" баланс: тут же появились "негативные факторы" в разных приложениях по расчету рейтинга контрагентов, банки стали отказывать в кредитах на покрытие кассовых разрывов, которые неизбежно возникают, если клиенты расплачиваются за длинные проекты раз в год (пока баланс был в плюсе, с этим проблем не было). В чем тут управленческая ошибка (или институциональная проблема нашего рынка)? Не инвестировать - нельзя, потеряешь перспективы и конкуренты обгонят. Занимать много, пока баланс в плюсе, и затем инвестировать только заемные средства - дорого и кажется бессмысленным, если есть свои. Чую здесь какой-то логический подвох, но не могу понять, как надо действовать. Банки кредитуют только компании с постоянной операционной прибылью, положительным балансом - но таким компаниям не нужны кредиты, если они не инвестируют в развитие, а просто "стригут купон". Если же они инвестируют, то неизбежно ухудшат свой баланс и попадут в категорию "ненадежных". Инвестировать понемногу так, чтобы держать баланс без убытка, около нуля - вроде бы можно, но быстрого развития не получится, можно не угнаться за рынком.
Начинается деловой сезон, по этому случаю пишу список наших недавних и предстоящих публикаций и конференций по двум основным темам.
1. Natural Language Understanding
- Свежая научная статья по этой теме должна выйти осенью, пока можно посмотреть публикацию "Онтологии: от текста к фактам" https://www.osp.ru/os/2020/04/13055699.
За год мы сильно продвинулись в этой теме, ближайший повод узнать подробности - наш доклад:
- Конференция Digital Oil&Gas https://smartgopro.com/digitalgasoil/, 23 сентября, онлайн, участие бесплатное. Тема доклада - "Технологии понимания естественного языка для нормализации справочников, поиска аналогов, создания диалоговых систем".
- Пре-принт статьи с описанием архитектуры нашей платформы "Ontology-based industrial data management platform" https://arxiv.org/abs/2103.05538
- ТНФ-2021, Тюменский нефтегазовый форум https://oilgasforum.ru/program/, 14 сентября, доклад "Дата-центричная архитектура как инструмент повышения качества аналитических данных" в онлайн-сессии "Цифровые технологии для повышения качества управления информацией на всех этапах жизненного цикла месторождения".
- Конференция "Управление данными 2021" https://www.osp.ru/lp/dm2021, 23 сентября, Москва (оффлайн). Доклад "Дата-центричная архитектура – реальная основа цифровизации" будем делать совместно с представителем одного из наших заказчиков, компании "Газпром недра".
Сегодня был на конференции DUMP-2021. В основном присутствовал на секции DevOps, т.к. программа более интересной мне секции Back-end была на удивление слабой. На два доклада по Back-end, однако, я зашел - и был поражен вещам, которыми люди не только занимаются до сих пор, но и считают возможным об этом публично рассказывать.
Один доклад был посвящен "чистой архитектуре" - паттерну проектирования, который "углубляет и расширяет" самые кондовые идеи ООП и MVC, намертво зашивая в код структуру данных и бизнес-логику. Люди используют это в энтерпрайзе. Единственное объяснение, которое я могу найти этим практикам как минимум 30-летней идейной давности, состоит в том, чтобы брать с заказчика побольше денег за постоянную доработку кода, которая необходима при любом изменении в "автоматизируемых" такими средствами процессах.
Другой доклад был посвящен переносу одного известного публичного сервиса на GraphQL. Докладчики начали с похвального тезиса о том, что на каком-то этапе развития сервиса они столкнулись с необходимостью описать его модель данных, чтобы разные компоненты могли общаться между собой в ее терминах. В качестве решения они выбрали GraphQL, что само по себе неплохо. Но основное содержание доклада совсем не впечатлило: время, затраченное на разработку, не коррелирует со скромностью достигнутых результатов, а проблемы, которые решали докладчики, были, скажем так, простоваты.
Могут ли онтологии использоваться при создании цифровых двойников? Конечно, могут! Короткий рассказ об этом с практическим примером смотрите в нашей презентации. Под цифровым двойником в промышленности обычно понимается физическая/математическая модель какого-либо объекта, с помощью которой решаются задачи мониторинга, управления, оценки состояния, планирования ремонтов и др. Для того чтобы такую модель можно было использовать в поддержке принятия решений, она должна описывать моделируемый объект с разных точек зрения, быть расширяемой, содержать логику имитации работы объекта, а также использоваться для структурирования данных о нем. Из перечисления требований очевидно, что онтологическое моделирование - отличный кандидат на роль средства создания модели. А если учесть, что данных об объекте генерируется огромное количество, становится понятной и необходимость использования платформы виртуализации данных.
25 февраля на конференции "Качество данных-2021" мы представили наш новый продукт - Систему сбора отчетности "Пульс дела". В презентации к нашему докладу можно прочитать об архитектуре и преимуществах системы, понять принцип ее работы. А самый быстрый способ познакомиться с системой "Пульс дела" - посмотреть посвященный ей видеоролик:
Мы запустили международный сайт платформы АрхиГраф: https://archigraph.pro На сайте доступна документация на наши продукты на английском языке, английская версия брошюры "Корпоративные автоматизированные системы на основе онтологических моделей: книга рецептов", а также демо-версия платформы.