Интернет является феноменальной технологией, которая смогла ворваться в нашу жизнь и кардинально ее изменить всего за 20 лет существования. Интернет изменил то, как мы получаем информацию, как развлекаемся, проводим свободное время, покупаем, учимся, общаемся друг с другом и т.д. Возрастающая популярность и широкое использование интернет-сервисов и услуг сопровождается постоянным производством колоссальных объемов данных. На сегодняшний день человечество владеет около 7 Зеттабайт информации, а к 2020 году этот показатель возрастет до 44 Зеттабайт. Для того, чтобы понять, много это или мало, приведем такой пример: если всю эту информацию записать на стандартные DVD (емкость которых составляет 4,7 Gb, а толщина диска около 1 мм) и сложить их один на другой, то высота полученного цилиндра вдвое превысит расстояние от Земли до Луны.
Темпы производства данных растут с каждым годом, и практически всегда реальность превосходит самые смелые прогнозы. Интересный факт был озвучен президентом компании Google Эриком Шмидтом: с момента зарождения цивилизации и до 2003 года человечеством было произведено 5 Эксабайт данных, тогда как сегодня этот же объем данных мы производим каждый день. Возникает естественный вопрос, что является причиной такого взрывного роста объемов данных и что они собой представляют?
Наиболее значимой причиной, способствующей росту объемов данных, является стремительный рост числа пользователей Сети и пользователей мобильной связи. Согласно последним данным, количество интернет-пользователей в мире перевалило за 3 млрд., что составляет более 40% жителей земли. Каждый из 3 млрд. пользователей, ежедневно посещая интернет-страницы, отправляя письма по электронной почте, комментируя статьи, переписываясь и отправляя фотографии в социальных сетях производит тот или иной объем данных. Что касается мобильной связи, то на сегодняшний день в мире насчитывается более 6,8 млрд. зарегистрированных пользователей мобильных телефонов, при этом около 2 млрд. из них пользуются телефонами с расширенными возможностями (так называемыми смартфонами). Благодаря новым технологиям скоростного обмена данными 3G и 4G, а также в связи с предоставлением практически неограниченных функциональных возможностей, пользователи все активнее используют смартфоны для доступа в Сеть, что в свою очередь способствует еще большему производству данных. Достаточно заметить, что владельцы мобильных телефонов способствуют этому процессу даже не производя звонки, не отправляя SMS, и не посещая интернет. Дело в том, что антенны (базовые станции) мобильного провайдера постоянно пингуют мобильное устройство, запоминая его местонахождение и отслеживая передвижения. Нетрудно себе представить, какие объемы данных производятся в мировом масштабе, даже таким пассивным образом. В результате такого широкого соучастия в процессе производства данных, каждую секунду в интернете происходит следующее:
— отправляется более 2 млн. электронных писем;
— совершается более 1500 звонков по Skype;
— пользователи осуществляют более 45 тыс. запросов в Google;
— количество просмотров видео на YouTube превышает 92000;
— в Facebook появляется 55000 лайков;
— в Instagram добавляется более 5000 фотографий;
— в интернет передается более 25 Tb.
Кроме осознанных или неосознанных действий, совершаемых нами, и приводящих к производству данных, необходимо учесть миллионы датчиков, компьютерных программ, камер наблюдения и т.д. Эти устройства без перерывов неустанно снабжают нас данными, которые позволяют принимать правильные решения и обеспечивать безопасность. Так, согласно самым скромным подсчетам, сегодня в мире насчитывается около 250 млн. камер наблюдения, которые производят около 2 Эксабайт видео ежедневно.
Так что же происходит с этими колоссальными объемами данных и насколько эффективно они используются? Если коротко, то сегодня человечество использует всего несколько процентов доступных в Сети данных. Чтобы понять суть проблемы, нужно понять разницу между структурированными и неструктурированными данными. Не будем вдаваться в технические детали, а только отметим, что неструктурированные данные не проходят предварительную обработку и представляют собой просто поток букв, цифр и символов. И проблема заключается в том, что более 90% данных в интернете являются неструктурированными, что делает невозможным или очень сложным их непосредственное использование. Нетрудно представить, если такие компании как Google, Yandex, Facebook, Twitter и другие зарабатывают миллиарды долларов, используя только несколько процентов доступных данных, то какие возможности откроются при операциях с 40-50% данных.
Обработка больших объемов данных является сложной и многоуровневой задачей, которая не может быть решена обычными подходами и стандартными програмно-аппаратными средствами. Достаточно привести пример. Перемещение данных объемом 1 Tb с одного носителя на другой может занять несколько часов, а если попытаться сделать тоже самое между разными компьютерами в сети, то время увеличится до десятков часов. Возникает вопрос, что нас может ожидать, если мы захотим не просто копировать данные, а производить сложный поиск, фильтровать, вставлять и удалять данные. А проделать эти операции необходимо не с 1 Tb, а с 1000 Tb (1 Эксабайт) данных. Можно с уверенностью сказать, что это практически невозможно, потому что может занять вечность. Вот почему, когда мы говорим об обработке больших данных, то подразумевает совершенно иные подходы, алгоритмы и техническую инфраструктуру.
Поэтому, с уверенностью можно сказать, что от того, как будут развиваться технологии обработки, хранения, добычи, извлечения и анализа данных, во многом будет зависеть и наше с вами будущее. А специалисты в этой сфере станут одними из востребованных на рынке труда в ближайшие годы.
Абзетдин Адамов, доцент кафедры компьютерной инженерии Университета «Кавказ», Директор НИЦ Анализа данных и Web-технологий (CeDAWI)