Проблема мирового объема информации

Цифровые технологии присутствуют во всех областях жизни человека. Объем записываемых в мировые хранилища данных ежесекундно растет, а это означает, что такими же темпами должны изменяться условия хранения информации и появляться новые возможности для наращивания ее объема.

Ежесекундно гигантские объемы контента генерируют такие источники, как социальные сети, информационные сайты, файлообменники – и это лишь сотая часть поставщиков.

Согласно исследованию IDC Digital Universe, к 2020 году объем данных на планете вырастет до 40 зеттабайтов, то есть на каждого живущего на Земле человека будет приходиться по 5200 Гб .

Известно, что основной поток информации генерируют не люди. Источником служат роботы, находящиеся в постоянном взаимодействии друг с другом. Это приборы для мониторинга, сенсоры, системы наблюдения, операционные системы персональных устройств, смартфоны, интеллектуальные системы, датчики и прочее. Количество источников данных стремительно растёт, значит, технологии их обработки становятся всё более востребованными.

Понятно, что это данные больших объемов, размер которых превосходит возможности типичных баз данных по занесению, хранению, управлению и анализу информации. Большая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, ‒ это вебжурналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Всё это хранится во множестве разнообразных хранилищ, на разных носителях.

Одни и те же данные могут храниться в разных форматах. В результате корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Можно добавить обстоятельство, что данные сейчас обновляются все чаще и чаще, и получается ситуация, в которой традиционные методы анализа информации не могут угнаться за огромными объемами постоянно обновляемых данных, что в итоге и открывает дорогу технологиям класса Big Data (большие данные).

Понятие Big Data

Для Big Data нет четкого определения. Изначально идея состояла в том, что объем информации настолько вырос, что рассматриваемое количество уже фактически не помещалось в памяти компьютера, используемой для обработки, поэтому инженерам потребовалось модернизировать инструменты для анализа всех данных. В настоящее время под большими данными понимается совокупность техник и технологий обработки огромных массивов информации и мгновенного их анализа.

Big Data – термин, использующийся почти на всех профессиональных конференциях, посвященных анализу данных, прогностической аналитике, интеллектуальному анализу данных (data mining), CRM.

Термин используется в сферах, где актуальна работа с качественно большими объемами данных, где постоянно происходит увеличение скорости потока данных в организационный процесс: экономике, банковской деятельности, производстве, маркетинге, телекоммуникациях, вебаналитике, медицине и другое.

Использование больших данных в бизнесе может принести огромную пользу для компании. Согласно отчету McKinsey Institute, «большие данные: новый рубеж для инноваций, конкуренции и производительности» .

Суть применяемых в больших данных методов и инструментов состоит в поиске ранее неизвестных и практически полезных данных в большом объеме данных с целью извлечения прибыли, при этом их использование сводится к трем задачам :

  • поиск скрытых закономерностей, например, наиболее покупаемого набора продуктов в корзине покупателя, сценариев поведения клиента в магазине, помогающих найти географическую позицию товара в магазине, резко повышающую вероятность его продажи;
  • обнаружение событий на основе ранее обнаруженных сценариев поведения, например, мошенника или в программах лояльности – прогнозирование поведения клиента, основываясь на закономерностях его поведения в прошлом;
  • обнаружение данных в режиме онлайн, снабжение бизнеса информацией для принятия решения мгновенно.

То есть можно привести следующие примеры реальных кейсов для больших данных:

  • улучшение имеющихся моделей с использованием новых, нетрадиционных источников информации;
  • отслеживание подозрительных транзакций;
  • прогнозирование вероятности наступления страхового случая;
  • предупреждение фактов внутреннего и внешнего мошенничества; — прогнозирование спроса на продукты;
  • анализ предпочтений клиента, создание «портрета клиента», персонализация маркетинга;
  • анализ клиентской базы;
  • управление оттоком клиентов;
  • другое.

В сущности, понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности.

Таким образом, большие данные состоят из трех основных аспектов:

  • Volume – большого объема данных,
  • Velocity – необходимости обрабатывать информацию с большой скоростью
  • Variety – многообразия и часто недостаточной структурированности данных.

Консалтинговая компания Forrester дает краткую формулировку: «Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности» .

Технология Apache Hadoop Framework

Для решения рассматриваемой проблемы необходимы особые технологии. Система Big Data строится на технологии Apache Hadoop Framework, которая является одной из самых известных в области обработки больших объёмов данных при приемлемых временных затратах.

Технология Hadoop представляет собой программный framework, позволяющий хранить и обрабатывать данные с помощью компьютерных кластеров, используя парадигму MapReduce. Данный подход позволяет построить высокопроизводительный кластер на базе low-end или middle-end серверов, что обеспечивает существенно более низкую стоимость решения по сравнению с одним высокопроизводительным сервером.

В основе технологии лежит распределённая файловая система HDFS (Hadoop Distributed File System), которая обеспечивает хранение данных Hadoop сразу на нескольких узлах кластера. Таким образом, если один или несколько узлов кластера выходят из строя, то риск потери информации сводится к минимуму и кластер продолжает работу в штатном режиме.

Вторым важным элементом Hadoop является MapReduce – framework для вычисления распределенных задач. В соответствии с подходом MapReduce обработка данных состоит из двух шагов: Map и Reduce. На шаге Map выполняется предварительная обработка данных, которая осуществляется параллельно на различных узлах кластера. На шаге Reduce происходит сведение предварительно обработанных данных в единый результат.

Прежде всего, технология применяется для анализа накопленных данных, также данных, полученных из дополнительных источников, таких как социальные сети, Интернет, архивы данные информационных систем и т.д. Hadoop позволяет не только сократить время на обработку и подготовку данных для аналитических систем, но и существенно расширяет возможности по анализу, позволяя оперировать новой информацией, слабоструктурированными или совсем неструктурированными данными.

Технология также используется для оптимизации существующих процессов обработки данных, позволяет существенно сократить затраты на хранение и обработку и при этом обеспечить эффективность работы с данными.

Технология Hadoop является лучшей в области хранения и обработки больших данных, так как она имеет ряд таких важнейших преимуществ, как снижение времени на обработку данных, снижение стоимости оборудования, повышение отказоустойчивости, линейная масштабируемость, работа с неструктурированными данными.

Сегодня, во время высоких технологий и огромных потоков информации, у компаний появилось гораздо больше возможностей для достижения превосходных показателей в ведении бизнеса благодаря использованию системы Big Data, основанной на технологии Hadoop. С помощью больших данных можно активизировать продажи, избежать убытков, научиться разрабатывать продукты и сервисы под запросы пользователя. Главное — научиться ими правильно пользоваться.