Мотивы, побудившие написать эту статью, кроются в выходящей за рамки приличия шумихе, поднятой в последнее время вокруг данных. Куда ни обрати свой взор, всюду натыкаешься на рассуждения о данных, об их пользе для бизнеса. И какими только терминами здесь не оперируют… Тут и Data Cleaning, и Data Governance, и Data Sync. Всего и не перечислить, тем более что почти каждый день появляются все новые и новые термины.
Но на самом ли деле все это на пользу и во благо бизнесу? Можно ли предположить обратное? Можно, но необходимо быть слишком самоуверенным для этого. Безусловно, вся технология работы с данными приносит пользу бизнесу. Осталось только уточнить, какому именно. Конечно, в первую очередь, бизнесу вендора, а еще его партнерам, а также различного рода консультантам, сайентистам и аналитикам. Ну вот, пожалуй, и все. А приносит ли это пользу обычному бизнесу? Вот тут как раз и возникает множество вопросов.
О Data Science
Data Science, пожалуй, одна из самых раскрученных тем в этом потоке разговоров о данных1, науке о данных и Больших Данных (Big Data). Так может Data Science и есть тот самый философский камень, превращающий данные в золото для бизнеса? Ну, что сказать, вера в чудо всегда была присуща роду человеческому. Чудо — это самый легкий путь достижения цели.
А может это вовсе и не чудо какое, а вполне себе наука? Почему это так важно и почему мы заостряем внимание на этом вопросе? Если удастся доказать, что это именно наука, то к выводам и результатам, полученным с помощью Data Science, следует относиться вполне серьезно. А если не удастся?
Итак, давайте попытаемся разобраться в вопросе — является ли Data Science наукой или нет. И на первом же шаге мы сталкиваемся с проблемой демаркации, поставленной К.Р.Поппером2. Чтобы не погружаться в глубины эпистемологии3 Поппера, попробуем объяснить простыми словами, что именно можно считать наукой, а что нет. В первую очередь это логика, научная логика. Собственно, логика одна для всех и, не вдаваясь в формальные определения, просто покажем, как построена наука.
Наука состоит из:
- Аксиом;
- Гипотез;
- Проверочных экспериментов;
- Теорий.
Аксиома — очевидное, не требующее дальнейшего уточнения понятие, например, точка или прямая. Аксиомы являются фундаментом, на котором строится здание науки. Науки без аксиом не бывает.
Гипотеза — разумное понимание причины наблюдаемого явления, а поскольку явлений без причин не бывает4, то гипотезы являются очень важной составляющей науки.
Эксперимент — набор проверочных наблюдений, направленных на подтверждение либо опровержение гипотезы.
Теория — гипотеза, прошедшая тщательную проверку экспериментом и не опровергнутая, может считаться на протяжении какого-то времени теорией.
Итак, наукой называется вид человеческой деятельности, осуществляемой по нижеследующему процессу:
аксиома —> гипотеза —> проверочные эксперименты —> теория
Как мы видим, завершающим этапом научного процесса является теория. На самом деле все не совсем так, и процесс в действительности бесконечен, потому как попытки опровергнуть устоявшуюся теорию не прекращаются никогда. Так в чем же ценность теории?
Во-первых, как сказал Курт Левин5: «Es gibt nichts Praktischeres als eine gute Theorie»6 («Ценность в ее практичности». И, во-вторых, хорошая теория в состоянии объяснить не только уже наблюдавшиеся события, но и предсказать новые, доселе не наблюдавшиеся. Таким образом, ценность хорошей теории в ее практичности!
А как же работает Data Science?
С первых же секунд знакомства мы с удивлением обнаруживаем, что ничего нового в этой дисциплине нет. Это все та же старая и добрая математическая статистика, основы которой были заложены почти 170 лет тому назад Френсисом Гальтоном7 и Карлом Пирсоном8. И для того чтобы понять, что есть Data Science, вполне достаточно понимания того, что такое математическая статистика.
Математическая статистика, в отличие от теории вероятностей, на которую она похожа столь сильно, что многие даже путают два этих понятия, в строгом понимании наукой не является, а поэтому все, что сказано о предсказательной силе науки, на математическую статистику не распространяется. Математическая статистика изначально создавалась как инструмент для экспериментальной проверки и подтверждения гипотез и обладает замечательными методами для такого рода проверок, но ее предсказательная сила равна нулю.
А Data Science? Поскольку, как мы выяснили, что Data Science это та же статистика с добавлением элементов искусственного интеллекта и программирования, то ничего сверх того, что может математическая статистика, она не может. А статистика может только обрабатывать результаты эксперимента. А чего стоит эксперимент без гипотезы? Без гипотезы это уже не эксперимент, а просто наблюдение какого-то явления, причем, без каких-либо знаний в отношении причин явления и, соответственно, из таких наблюдений никакой ценности не извлечь.
Может такая ценность и вовсе не нужна бизнесу? Для ответа на этот вопрос рассмотрим «конечный пункт» всей этой новой парадигмы под названием «данные», а именно, Data Driven Decission Making — принятие решений на основе данных. Исходя из этой парадигмы, данные необходимы для принятия взвешенных решений. Но так ли это? А может быть все-таки для принятия взвешенных решений необходимы не только знания, но и здравый смысл? И может ли Data Science дать нам знания? Нет! Математическая статистика может дать нам лишь знания в отношении достоверности гипотезы, а где гипотезы в процессах Data Science? Их нет. Все, что есть, — это дескриптивная статистика, то есть какое-то описание уже наблюдавшихся явлений. А насколько ценно такое знание для целей принятия решений? Ответ, думаю, очевиден.
Приведем пример. У нас стоит задача изменения цен на наши товары (услуги). Для принятия взвешенного решения нам необходимо понимание того, как поведут себя наши клиенты в новых условиях и как все это отразится на наших доходах. Может ли нам в решении этой задачи помочь Data Science? Только в одном случае, если в наших исторических данных имеется история продаж с теми ценами, которые мы хотим установить. А если нет? Тогда применение технологий Data Science абсолютно бесполезно. Итак, и в этом случае современная парадигма «данных» тоже бесполезна.
И, наконец, в завершение обсуждения — является ли Data Science наукой или нет, приведем сравнительную таблицу:
Из вышеприведенной таблицы можно сделать вывод, что нет, не является. Следовательно, уже в самом названии кроется обман. А стоит ли полагаться на инструмент, в самом названии которого есть обман? Вопрос, думаю, риторический. Джордж Оруэлл9 в одном из своих писем сказал: «There might be a lot of cash in starting a religion»10. И первым шагом в создании любой религии является создание мифов. И этот шаг в создании религии под названием «Данные — это новая нефть» уже сделан, но до создания самой религии дело еще не дошло. Пока что создан «Миф XXI века».
_____________________________________________________________________
1 Речь идет не об учетных данных. С ними все понятно. Их важность и ценность для бизнеса неоспоримы, но с этим кругом задач прекрасно справляются различного рода ERP-системы.
2 Сэр Карл Раймунд Поппер (нем. Karl Raimund Popper; 28 июля 1902, Вена, Австро-Венгрия — 17 сентября 1994, Лондон, Англия, Великобритания). Австрийский и британский философ и социолог. Один из самых влиятельных философов науки XX столетия. Поппер наиболее известен своими трудами по философии науки.
3 Эпистемология (от древнегреческого ἐπιστήμη — «научное знание, наука», «достоверное знание» + λόγος «слово», «речь») — философско-методологическая дисциплина, исследующая знание как таковое, его строение, структуру, функционирование и развитие.
4 Платон. Теэтет. «…Так что из всего того, о чем мы с самого начала рассуждали, ничто не есть само по себе…»
5 Курт Цадек Левин (нем. Kurt Zadek Lewin; 9 сентября 1890, Могильно, провинция Позен, Пруссия — 12 февраля 1947, Ньютонвилл, штат Массачусетс, США). Немецкий и американский психолог.
6 Нет ничего практичней хорошей теории.
7 Сэр Фрэнсис Гальтон (Голтон; англ. Francis Galton; 16 февраля 1822, Бирмингем, Уэст-Мидлендс, Англия, Великобритания — 17 января 1911, Хейзлмир, Суррей, Англия, Великобритания). Английский исследователь, географ, антрополог, психолог, статистик, основатель дифференциальной психологии и психометрики, а также основоположник учения евгеники.
8 Карл Пирсон (англ. Karl (Carl) Pearson, 27 марта 1857, Лондон — 27 апреля 1936, там же). Английский математик, статистик, биолог и философ; основатель математической статистики, один из основоположников биометрики.
9 Джордж Оруэлл (англ. George Orwell, настоящее имя Эрик Артур Блэр, англ. Eric Arthur Blair; 25 июня 1903, Мотихари, Британская Индия — 21 января 1950, Лондон, Великобритания). Британский писатель, журналист и литературный критик, радиоведущий, автор мемуаров, публицист.
10 Можно получить много денег, основав религию.
Автор: Фаруг Д.Муганлинский