?

Log in

No account? Create an account

serge_gorshkov


Сергей Горшков - о бизнесе в сфере ИТ

о семантической интеграции, программировании, управлении...


Previous Entry Share Next Entry
SEMANTiCS'2019 - первый день
serge_gorshkov
Участвую в конференции SEMANTiCS’2019 в Карлсруэ, Германия. Конференция целиком посвящена Semantic Web и его промышленным применениям. 10 и 11 сентября – основные дни, 9 и 12 – дополнительные активности. Событие важное, поэтому два основных дня конференции освещу в двух отдельных постах.
Трудно удержаться от сравнения этой конференции с отечественными.Последние делятся на несколько групп:

  • чисто академические, на которых встречаются качественные доклады, но атмосфера испорчена обилием людей, которым нужно выступить «для галочки» – отчитаться участием в конференции и публикацией;

  • маркетинговые, где каждый кулик хвалит свое болото – с этих спросу никакого;

  • мероприятия агонизирующего жанра «конференция для разработчиков», которые в последние годы страдают бездумной погоней за хайпом, удручающей бессодержательностью выступлений при максимальном надувании щек, бессмысленностью аудитории и стремлением отучить людей думать;

  • сессии в рамках крупных промышленных выставок, о которых вообще умолчу.

Необходимое условие содержательного мероприятия – наличие критической массы людей, действительно заинтересованных в обсуждаемых проблемах, являющихся профессионалами в этой сфере и готовых применять научные критерии достоверности для предъявления и оценки любых докладываемых результатов. SEMANTiCS’2019 (15-я, юбилейная!) собрала в этом году 420 участников, которые, как мне кажется, в большинстве своем отвечают этим критериям применительно к сфере онтологий. В нашей стране я знаю подобных людей человек 20, треть из которых работают в нашей компании или сотрудничают с ней.



Если обратиться к субъективным ощущениям от мероприятия, то, наверное, как-то так должен себя чувствовать слоненок, выросший среди мамонтов в холодной северной стране, а затем попавший в Африку. Они все здесь такие! )
В одном месте собралось 420 человек, которым не надо доказывать, что строительство Knowledge Graph позволяет извлечь пользу из данных, которые сейчас лежат в корпоративных хранилищах мертвым грузом; что онтологии являются не какой-то странной штукой для ученых, а полноценным, готовым к коммерческому использованию набором методов и технологий работы со знаниями; что «бездумные» подходы типа чистого Deep Learning, в которых роль человека-аналитика полностью исключается, могут принести только ограниченные и узко прикладные результаты.

Есть и «минусы». Если года 3-4 назад те продукты и идеи, которые мы реализовывали, имели единичные зарубежные аналоги или вовсе их не имели, то теперь только на этой конференции представлено с десяток платформ, предназначенных для решения одной и той же задачи: извлечь данные из корпоративных data silos и получить от них пользу, построить дата-центричную корпоративную архитектуру вокруг онтологии, отражающей концептуальные представления людей о предметной области. Забыть про нудные и дорогостоящие попытки «автоматизировать все в рамках одной системы», перестать думать про клубки сложных неуправляемых интеграций между десятками унаследованных приложений. Работать с функциональными на бизнес-уровне, получить свободу менять одни автоматизированные системы на другие.

Конечно, дьявол кроется в деталях, и отличий в конкретных реализациях очень много. Бояться конкуренции еще рано – явных лидеров рынка нет, у компании-лидера европейской индустрии, Semantic Web Company, на сегодняшний день 54 сотрудника (у одной из присутствующих успешных компаний второго ряда – 20 человек, у нас почти столько же). Из гигантов на этот рынок пока никто активно не зарится; хотя открывало конференцию выступление от Oracle, который, похоже, не прочь «задать стандарт» и в этой области. Спрос на подобные решения огромный и продолжает расти. Так что в плюсе – несомненное подтверждение того, что мы все делаем правильно, и угадали это правильное направление раньше многих.

Одна из наиболее ценных мыслей, прозвучавших во вступительном докладе Michael Sullivan (Oracle), описавшего архитектурную схему построения логической витрины данных, состоит в том, что ключевой проблемой здесь является идентификация сущностей, извлеченных из разных источников. С этой проблемой мы столкнулись на практике и для определенных случаев ее решили, но общего решения здесь, похоже, не существует.

В числе других докладов особое внимание хочу обратить на трек по технологиям обработки естественного языка (NLU, Natural Language Understanding). Лидеры индустрии давно поняли, что одними нейросетями – без концептуального описания смыслового уровня – в решении таких задач не обойтись, поэтому на конференции представлены некоторые подходы и методы к синтезу онтологий и классического ML. И здесь не могу не отметить, что наша компания движется в ту же сторону, ряд конкретных задач обработки текстов на естественном языке с целью дополнения графа знаний нами уже решены.

Не могу обойти вниманием и доклад от компании OMV (нефтегаз) о пилотном проекте по семантической аннотации массивов документов. Многие крупные компании, в особенности нефтегазовые, обладают огромными массивами сканированных документов, в которых содержится полезная информация. Эта информация практически не может быть использована, потому что найти такие документы почти невозможно. Сочетание методов машинного обучения (обнаружение сущностей в тексте, распознанном OCR, и т.д.) с использованием онтологической модели для представления наборов признаков документов позволяет определить семантические признаки для каждого документа. Далее пользователям предоставляется инструмент поиска по графу. Докладчики обозначили несколько проблем, с которыми столкнулись и мы в аналогичном проекте для одной из крупнейших российских нефтегазовых компаний. Снова – не может не радовать, что мы идем на одном уровне с наиболее передовыми европейскими пилотными проектами. Причем наш проект масштабнее по целям и результатам, поскольку включает работу не только с текстовыми документами, но и организацию доступа к структурированным данным в унаследованных источниках.


  • 1
состоит в том, что ключевой проблемой здесь является идентификация сущностей, извлеченных из разных источников.

Ключевой проблемой является дико высокий порог вхождения для специалистов, которые знают истинный смысл сущностей в каком-то специфическом источнике.

Проблему пытались решить стартапы в начале двухтысячных. Обломились. Сейчас вторая волна тех же самых попыток. Правда, есть ещё волшебное слово AI, вытягивающее у клиентов деньги.

Я соглашусь (и это тоже обсуждали в кулуарах), что главная проблема вообще всех решений на онтологиях - в том, что они заставляют разработчика и аналитика думать. А им не хочется думать, им хочется Deep Learning, чтобы все как-нибудь само построилось.

Однако все же есть значительное число практических кейсов, где цена вопроса такова, что заказчик найдет в себе силы даже заставить людей думать. То есть бабло побеждает, как минимум, лень.

Что касается собственно порога для специалистов - да, для того чтобы понять в чем состоит проблема идентификации сущностей, человек должен а) съесть пуд соли на разных задачах, б) проявить большую гибкость воображения, в) иметь рядом кого-то, кто подскажет. Но, в общем-то, такие люди есть, по крайней мере у нас)

Однако все же есть значительное число практических кейсов, где цена вопроса такова, что заказчик найдет в себе силы даже заставить людей думать. То есть бабло побеждает, как минимум, лень.

Не выйдет каменный цветок.

Специалисты всегда найдут, чем заняться. В результате на задачу посадят каких-нибудь профессоров и вчерашних студентов, знающих много умных слов, но не разбирающихся в предмете.

Это уже сделали в медицине, результаты ужасающие. Но чиновники всем прописывают.

С этим я не могу согласиться, хотя среди наших сотрудников буквально есть и профессора, и вчерашние студенты). "Практика - критерий истины", посмотрим на результаты ближайших проектов, в которых проблема идентификации сущностей встанет особо остро. До сих пор мы ее успешно решали, и есть успешные проекты, в которых подобные механизмы работают уже год-два.

  • 1