?

Log in

No account? Create an account

serge_gorshkov


Сергей Горшков - о бизнесе в сфере ИТ

о семантической интеграции, программировании, управлении...


Previous Entry Share Next Entry
Объясняем семантическую аналитику на... женщинах
serge_gorshkov
Одна из моих главных проблем - как объяснить людям, чем семантическая аналитика отличается от привычной (статистической, математической). Чтобы стало действительно понятно - нужна сильная метафора. Похоже, я ее нашел.

Представим себе конкурс красоты. На него жаждут попасть несколько сотен девушек, среди которых надо выявить и ранжировать трех «самых красивых», причем желательно так, чтобы публика не слишком возмущалась. Красота, с одной стороны, субъективное понятие, так как существует только in the eye of beholder; с другой - есть некий "общепринятый стандарт", эталон масс-культуры. Хотя стремление к этому эталону приводит иногда к ужасным результатам, ну, да сейчас не об этом.
Если посмотреть на условия любого конкурса красоты, становится понятно, что для упрощения задачи первым делом вводятся математические критерии: возраст от 18 до 23, рост выше 173, размеры 90x60x90 с четко известными допусками и припусками. Отобрав, таким образом, обозримое число претенденток, жюри начинает оценивать (в баллах!) различные их качества и способности. Победительниц, в итоге, можно выбрать при помощи простых арифметических операций. Принцип тот же, что в игре «лучший кассир месяца».

Это - обычная, привычная нам аналитика. Точно таким же способом решается огромное количество других задач - от составления инвестпрограмм до выявления победителя на тендерах, от оценки инвестиционной привлекательности проектов до сегментации клиентов.

Посмотрим, насколько подобная математика коррелирует с реальной жизнью, и как можно было бы улучшить способ вычислений.
Уже первый, формальный набор критериев по возрасту, росту и пропорциям позволяет отсеять подавляющее большинство потенциальных претенденток, и сделать процедуру решения посильной по трудоемкости для организаторов, и понятной для телезрителя. Но если посмотреть на объективную оценку красоты, то есть на «мнение зала», то наверняка окажется, что среди попавших в отсеченную группу есть немало признанных красавиц. Этому «мнению зала» легко найти эмпирическую, но истинную количественную метрику - например, успешность той или иной девушки в парном сравнении (вспоминаем Facemash и Цукерберга).

facemash

Конечно, в конкурсах красоты «мнение зала» мало кого интересует. Для упрощения и придания интриги конкурсу используется «авторитет жюри» - подразумевается, что там сидят какие-то сверхчеловеки, которые в женской красоте разбираются куда лучше, чем средний обыватель. Ровно то же самое делает бизнес-аналитик, который наводит на клиента морок, уверяя его, что знает о бизнесе клиента больше, чем он сам. В первом случае подтверждением авторитета служит то, что лица членов жюри примелькались на экранах телевизоров, во втором – громкое имя какой-нибудь консалтинговой компании.

Так вот, я уверен, что если устроить традиционный "конкурс красоты", скажем, между тысячей девушек, и их же ранжировать по методу Facemash, то результаты не совпадут радикально. Если проанализировать эти результаты, то окажется, что субъективные представления о красоте намного сложнее, чем соответствие одному определенному шаблону. Шаблон тут можно представить себе буквально, как вырезанную в фанере фигуру ростом 173 и с пропорциями 90x60x90 – все желающие могут подойти и примерить на себя.
Между тем, гармоничный вид фигуры может быть достигнут при самых разных комбинациях объема талии, груди и бедер. Красоту (или, хуже - миловидность) лица формально определить еще сложнее. Цвет глаз должен сочетаться с цветом волос и кожи по довольно хитрым правилам, из которых будет множество исключений, и нельзя сказать, что голубоглазые блондинки имеют преимущество. Правила этих сочетаний для представителей, например, европеоидной и монголоидной рас будут разными. Шведская красавица (титульной национальности) будет высокой, с длинными ногами, светлыми волосами и голубыми глазами; однако это вовсе не значит, что шведская красавица родом из Таиланда, небольшого роста и с темными волосами, является апофеозом уродства. А ведь именно к такому выводу легко прийти «математическому» аналитику, хорошенько упростившему задачу. Наоборот, тайка и шведка будут сопоставимыми по качеству решениями одного и того же «уравнения красоты».
Такие сочетания поддаются как эмпирическому выявлению на больших объемах данных и оценок, так и логической расшифровке (кстати, в результате окажется, что все наши "критерии красоты" имеют или биологическое, или социальное обоснование).
Возьму на себя смелость утверждать, что, потрудившись над дата майнингом и формализацией критериев оценок красоты, либо прибегнув к машинному обучению, можно получить набор сложных паттернов, которые позволят с хорошей точностью спрогнозировать результаты метода Facemash. Иными словами - смоделировать объективное (совпадающее с мнением большинства людей, что является единственным объективным критерием) судейство конкурса красоты.

Легко экстраполировать это рассуждение на оптимизационные задачи в бизнесе. Об этом я уже писал, не буду повторяться. Надеюсь, что моя метафора позволит легче воспринять идеи аналитики, лишенной чрезмерных упрощений и математизмов. Осталось сделать на эту тему презентацию, которой можно внести нотку оживления в пре-сейлы. Смотри, Петька, вот мы – а вот белые. К тайкам налево, к шведкам направо.

  • 1
Facebook пользовался семантическими технологиями?

Если каждого пользователя сети спрашивать чем лучше заправлять самолет, бензином или керосином, думаю мы тоже будем приятно удивлены ответом. Дай бог все-таки авиакомпании будут строгими расчетами пользоваться, а не бигдата или экспериментами.

В условиях, когда в бизнес-аналитике побеждают интуитивные методы, хорошо будет от них сначала дистанцироваться. А математики и логики думаю позже все равно договорятся.

Речь ведь не о том, спрашивать пользователей или нет. В этой модельной задаче мнение пользователей является абсолютной истиной только потому, что красота субъективна.
То есть, мнение пользователей дает правильный ответ, к которому хочется приблизиться методами ИТ, что я.и продемонстрировал.
В других задачах критерием правильности решения является практика - рост прибыли, снижение отказов и т. д.

Короче, семантика не в попарном сравнении, а в том, как приблизиться к его результатам логическими средствами.

  • 1