Что в вашем понимании означает термин Big Data? Определение, с которым нам все чаще приходится сталкиваться практически на всех профессиональных конференциях, посвященных анализу данных, прогностической аналитике, интеллектуальному анализу данных, CRM и т.д. Термин используется в сферах, где актуальна работа с качественно большими объемами данных, где постоянно происходит увеличение скорости потока данных в организационный процесс. Но разве понятие «больших данных» появилось только недавно? Большие объемы данных существовали всегда, и их величина определяется лишь двумя факторами. Первый фактор — наличие вычислительной мощи. Попытки структурирования и анализа больших объемов информации осуществлялись всегда, но сегодня это происходит значительно быстрее, благодаря развитию технологий. Другой фактор — необычайная дешевизна транзакции. Например, для совершения покупки в Amazon нет необходимости ехать в США, так как интернет в состоянии передать любые объемы данных за короткое время. По сути, вся полемика вокруг феномена «больших данных» сводится к обсуждению технологий, лежащих в их основе, и деталей реализации, но не теоретических основ. Ничего принципиально нового в этом понятии нет, так как фундамент заложен много лет назад.
Конечно, сегодня в термин Big Data вкладывается заметная маркетинговая составляющая, представляющая технологию как скорость роста данных, что определяет значительное отставание способностей используемых в компаниях IT-систем от реальных или перспективных потребностей. И если говорить о Big Data как о больших массивах информации, то в приложении к сектору ИКТ речь идет о решениях для работы с этими данными. Необходимо обрабатывать постоянно и скачкообразно растущие объемы информации, реализовать поиск, фильтрацию и классификацию данных в условиях роста сложности и числа элементов. И если компании начинают испытывать затруднения в обработке поступающих к ним данных, значит, все больше будут востребованы информационные системы, продукты, сервисы, решения или даже методики их обработки. Это подтверждают и официальные данные. Например, согласно расчетам аналитического агентства IDC, за ближайшие 8 лет количество данных в мире достигнет 40 зетабайт. А это значит, что на каждого жителя нашей планеты будет приходиться по 5200 Gb данных. Взглянув на этот вопрос с другой стороны, аналитики сравнили 40 зетабайт с природным показателем и пришли к выводу, что к 2020 году информационные системы будут иметь дело с количеством данных примерно в 57 раз большим, чем количество песчинок на пляжах на всей поверхности Земли. Быть может, в будущем эксперты снова изменят оценку в сторону увеличения, но ясно одно — курс на Big Data неизбежен.
Пока интерес к Big Data только начинает зарождаться, о чем говорит недавнее исследование компании Gartner, аналитики которой попросили несколько сотен компаний озвучить главные вызовы в области Big Data. Первые два места со значительным отрывом заняли ответы «понять, как извлечь выгоду из больших данных» и «определиться со стратегией». Gartner также составила модель цикла зрелости технологий (Hype Cycle), в которой отслеживается популярность разных технологических терминов и сравниваются циклы популярности с реальным внедрением технологий. Сначала происходит довольно резкий всплеск шума вокруг новой технологии, потом столь же резкое падение интереса или, порой, даже разочарование. И только потом начинается реальное массовое внедрение. И если судить по последнему графику Hype Cycle, Big Data сейчас как раз достигли пика интереса к ней. Аналитики прогнозируют спад и даже волну критики, но потом она схлынет, а компании будут постепенно определяться с тем, как использовать Big Data. Такой же путь сейчас проходят «облачные» вычисления, правда, с некоторым опережением. Они сейчас находятся на пике критики и ослабления интереса. А вот технология 3D-печати прошла сомнительные этапы, и набирает обороты. Но, несмотря на переходный период, за проекты Big Data берутся все больше и больше компаний.
Модель цикла зрелости технологий (Hype Cycle) по версии Gartner
Сегодня уже недостаточно располагать данными, нужно успеть их обработать. Проблема заключается в том, что объем данных становится чрезвычайно большим, а «плотность информации» уменьшается. Таким образом, для поиска полезной информации приходится обрабатывать сотни гигабайт зачастую неструктурированных данных. Многие разработчики предлагают платформы, предназначенные для того, чтобы помочь превратить эти трудности в новые возможности для бизнеса. Однако любая новая технология должна интегрироваться с существующими в компаниях инфраструктурами. И на фоне других вендоров сегодня платформа IBM Big Data выглядит наиболее перспективно, так как включает в себя продукты интеграции с существующими хранилищами данных, процессами извлечения, преобразования и загрузки данных (ETL), а также системами безопасности.
Платформа корпоративного класса IBM Big Data позволяет решить все проблемы бизнеса, связанные с большими данными, и объединяет традиционные технологии, которые хорошо подходят для выполнения структурированных повторяемых задач, с дополнительными новыми технологиями, которые обеспечивают скорость и гибкость, являясь идеальными для специальных случаев анализа и обнаружения данных, а также анализа неструктурированных данных. Основные возможности интегрированной платформы IBM Big Data включают:
- аналитику на основе Hadoop: обрабатывает и анализирует любые типы данных в кластерах серверов;
- потоковые вычисления: обеспечивает постоянный анализ крупных объемов потоковых данных со временем ответа, составляющим менее миллисекунды;
- организацию хранилищ данных: предоставляет знания об операциях и расширенную аналитику, встроенную в базу данных;
- интеграция данных и управление информацией: позволяет понимать, очищать, преобразовывать, контролировать и доставлять достоверную информацию для важнейших бизнес-программ.
Также платформа имеет следующие дополнительные службы:
- визуализация и обнаружение: помогает конечным пользователям анализировать крупные и сложные наборы данных;
- разработка приложений: ускоряет процесс разработки приложений для работы с большими данными;
- управление системами: отслеживает системы больших данных и управляет ими для обеспечения защиты и повышения производительности;
- акселераторы: ускоряют окупаемость с помощью аналитических и отраслевых модулей.
Платформа IBM Big Data включает в себя следующие продукты:
- IBM PureData System for Analytics (Netezza) — специализированный аппаратно-программный комплекс для выполнения сложной аналитики над сверхбольшими объемами структурированных данных и управления хранилищами данных.
- IBM InfoSphere BigInsights — готовое к использованию на предприятии решение на основе Apache Hadoop для контроля и анализа крупных объемов структурированных и неструктурированных данных.
- IBM InfoSphere Streams — обеспечивает непрерывный анализ крупных объемов потоковых данных со временем ответа, составляющим менее миллисекунды.
- IBM InfoSphere Data Explorer — система для быстрого и точного поиска информации в корпоративных источниках структурированных и неструктурированных данных и отображения результатов на web-панелях.
Ключевыми компонентами этой платформы являются InfoSphere Streams и BigInsights. Для того чтобы ускорить внедрение этих технологий, компания предлагает заранее собранные пакеты, специально приготовленные для определенных отраслей. Доступ бизнес-аналитиков к этим технологиям облегчается с помощью средств визуализации. Платформа довольно гибкая и не требует внедрения и использования всех компонентов одномоментно. Также IBM предлагает решения IBM Security Intelligence with Big Data с возможностью сочетания анализа угроз безопасности с аналитикой больших данных для борьбы с внешними киберугрозами, что позволит более оперативно выявлять вредоносное программное обеспечение. Объединение возможностей платформы IBM QRadar Security Intelligence Platform, которой в прошлом номере нашего журнала был посвящен материал, с функциями IBM InfoSphere BigInsights позволяет выполнить сразу несколько важнейших задач в сфере безопасности. Например, выявление аномалий и проведение оперативного корреляционного анализа при высокой скорости запроса аналитических данных и наличии необходимых инструментов для контроля, а также гибкий анализ как структурированных, так и неструктурированных больших данных.
Таким образом, продукт IBM Security Intelligence with Big Data выполняет массу различных функций, а экспертные профессиональные услуги компании IBM позволяют ускорить запуск инициатив по обеспечению безопасности. Всего же в международную исследовательскую сеть IBM входят 9 исследовательских центров IBM Research и 11 лабораторий разработки программного обеспечения систем безопасности, а также Институт передовых технологий безопасности (Institute for Advanced Security) с отделениями в США, Европе и Азиатско-Тихоокеанском регионе. Более чем в 130 странах мира ежедневно отслеживается около 15 млрд. событий безопасности.
В конце 2013 года корпорация IBM также официально объявила о покупке крупного разработчика программного обеспечения для корпоративного сектора — компании Daeja Image Systems. Решения этой компании известны во многих отраслях промышленности, имеющих дело с интенсивной обработкой данных. Ими пользуются банки, крупные финансовые и страховые компании, а также учреждения здравоохранения. С помощью продуктов Daeja Image Systems пользователи получают возможность параллельно открывать сотни документов и файлов графических форматов, даже если на их компьютерах не установлены соответствующие приложения. Наработки Daeja в области совместного доступа, разграничения прав и политик безопасности удачно дополнят собственные программные продукты IBM по анонимизации и защите чувствительных данных. Daeja также специализируется на средствах удаленного и совместного просмотра графических файлов большого объема, что становится все более актуальным по мере распространения в деловой среде снимков высокого разрешения.
Что касается примеров использования платформы IBM Big Data, то их уже немало по всему миру. Например, с ее помощью было оптимизировано управление дорожным движением в столице Ирландии Дублине. Подход Big Data в проекте также удачно вписался в программу IBM Smarter Cities («Умные города»). Благодаря IBM, дорожный трафик в этом городе является наиболее изученным в мире, так как собрана подробная статистика почти за 2 года. В качестве исходных данных система управления дорожным движением использует сведения о движении 1000 автобусов, оснащенных GPS-приемниками и передающих координаты своего местоположения каждые 20 секунд. Также используются данные от установленных на дорогах города индуктивных петлевых датчиков и многочисленных телевизионных камер. Кроме непосредственного изучения ситуации с трафиком, компания IBM создала высокоэффективный инструмент для улучшения ситуации с дорожным движением в Дублине. В частности, городские специалисты по транспорту не только видят пробки в реальном масштабе времени, но и получают сведения о том, что эту пробку вызвало. Это позволяет быстро выработать меры по устранению причин. Также есть возможность моделировать и последствия каких-либо воздействий на дорожный трафик в городе: от позитивных, включающих запуск новой автобусной линии, до негативных, таких как ремонт дороги. Другими словами, властям Дублина больше не приходится принимать решения вслепую, слабо представляя, к чему они приведут. Основываясь на таком опыте, IBM намерена довести технологию управления трафиком в городах на основе парадигм Big Data и Smarter Cities до коммерческого продукта. Следующим городом, в котором будет опробована эта система, станет Болонья (Италия).
В конце 2013 года IBM опубликовала традиционный список технологических прогнозов на следующие пять лет «5 in 5». Почти все предсказания, сделанные корпорацией на этот раз, так или иначе связаны с анализом больших данных. И развитие городских инфраструктур в связке, обозначенной Big Data и Smarter Cities, отнюдь не единственная тема, которая присутствует в этом списке. Заметно увеличится роль структурированного анализа больших данных в медицине, образовании, системах безопасности, банковской сфере и on-line торговле. Вывод из этого можно сделать лишь один, Big Data — это не мода, а реальность.
Для получения дополнительных сведений о решениях IBM, описанных в данной статье, обратитесь к представителю или бизнес-партнеру IBM в нашей стране, либо посетите web-сайт: www.ibm.com/big-data.