?

Log in

No account? Create an account

serge_gorshkov


Сергей Горшков - о бизнесе в сфере ИТ

о семантической интеграции, программировании, управлении...


Previous Entry Share Next Entry
Система Управления Знаниями: трейлер
serge_gorshkov
Опубликовал трейлер о некоторых возможностях нашего нового продукта - Системы Управления Знаниями. Как искать информацию в больших массивах данных, составляя запросы почти на естественном языке, или конструируя их в графическом режиме - смотрите в следующем ролике.


  • 1
Вот семантический поиск -- это новое. Но там И,ИЛИ... Скобок не хватает в выражении - это бросается в глаза уже в этом видео.

А вот графический поиск, я что то подобное видел....

Скобок не хватает, согласен. С другой стороны, скобки несколько портят "естественность" фразы. Здесь я логику приоритета и/или построил по принципу их использования в языке, насколько возможно. Еще не хватает И НЕ - пока не успели реализовать.

Графический поиск - такую штуку можно реализовать и на реляционной базе, тогда каждый квадратик будет представлять собой таблицу и фильтр по ней. В нашем случае весь интерес в том, что визуальная структура фильтра соответствует структуре графа в модели и хранилище данных.

Спасибо за обратную связь!

Да, похожий реляционный конструктор запросов я видел уже давно, лет 10 назад, правда почти без графики. Но не смотря на то, что ИМХО это очень полезно и это было в довольно распространенной системе, которую развивает Микрософт, это направление особого развития не претерпело. Ни чего за 10 лет не было улучшено и даже наоборот.

Ваш пример, напомнил мне...
Еще в 1998 году у меня родилась такая фраза, что "в следующем веке экономист не умеющий построить SQL запрос, экономистом назваться не будет". И увы, вижу, что я ошибался... Хороших экономистов, которые разные балансы (на основе разных планов счетов) легко читают, поискать. Казалось бы простая наука все что там есть, освоить можно за пол года учебы и год практики. Ан нет, мало спецов. Что уж там говорить про то что бы они знали SQL.

Так что, верной дорогой идете, Сергей...

Ограниченный естественный язык удобен, но комбинированные фразы русского языка зачастую оказываются плохо согласованными по числам, родам и падежам. Приходится выкручиваться, применяя "клеевые" языковые конструкции типа "такой что", "который(-ая)", "объект <такой-то>", и т.д.
Задачу понимания естественного русского языка не ставили? У нас получилось обрабатывать, например, введенные буквами запросы вида "Скважины со способом эксплуатации ЭЦН на кусте 227", взамен громоздких комбинированных "Объект(-ы) скважина, имеющий(-е) параметр 'Способ эксплуатации' равный 'ЭЦН', и который(-е) расположен(-ы) на объекте куст, который имеет параметр 'Наименование' равный '227'".

Круто!!! Здорово, что у вас разработка движется в таких направлениях.
Нет, задачи распознавать фразы, написанные (а не сконструированные) на естественном языке, в этой разработке пока не ставили. Хотя в принципе примерно понятно, как это решать. Пробная распознавалка смысла естественного языка у меня была в другом проекте, где собирали сообщения из лент новостей, и укладывали в онтологию содержащиеся в них факты.

Что возникает проблема с согласованием конструируемых фраз - согласен. Собственно, если развивать эту штуку именно в сторону "естественности" языка, недостаточно будет определений терминов, которые даются в онтологии. Для каждого термина надо задавать словоформы, хранить правила построения фраз (а не просто использовать один, жестко заложенный в алгоритме способ), т.е. дополнять онтологию чисто лингвистическим содержанием. Или даже хранить все эти сведения вне онтологии, что чуть менее интересно.

Ну у нас пока тоже эта задача обработки естественного языка за рамки пилота не вышла, пробовали как один из возможных интерфейсов к системе (про саму систему вышла первая публикация http://www.oil-industry.ru/archive_detail.php?ID=9989 в самом низу). Под капот, для распознавания предложений из слов из букв, основным компонентом положили Solarix. Разработчик сверху ещё прикрутил и голосовой ввод, так что на конференции выглядело эффектно.

Генерировать связный русский текст требуемого качества, из фактов семантической сети, пока не получилось. Не думаю, что хранение лингвистического содержания в элементах онтологии, даст хороший лаконичный результат. Лучше пробовать решать эту задачу спецсредствами, например, http://kelijah.livejournal.com/136371.html


Edited at 2014-11-18 12:14 am (UTC)

Спасибо за ссылки, интересно!!

Ещё большие проблемы создают термины, состоящие из нескольких слов. Главное слово в термине нужно согласовать с другими терминами-существительными и с отношениями-глаголами. А вот дополнительные слова в термине - с самим термином. В общем, задача не из легких.

  • 1