В начале XXI века объем данных, накопленных в мире за пару десятилей едва перевалил за 5 млрд гб. Уже к 2008 году он вырос в 40 раз, а в наши дни достигает 7 зетта байт, если не больше. Бигдата стала социально-экономическим феноменом, а технологические компании научились на ней зарабатывать и принимать решения, используя анализ данных.
Все будет BIG DATA
Если на заре информатизации главной трудностью было хранение данных,, то теперь компании больше волнует, как организовать к ним оперативный доступ. В первую очередь для корректного и релевантного поиска ценной для бизнеса информации.
Сам же термин Big Data, который в 2008 году ввел в оборот редактор журнала Nature Клиффорд Линч, означает не столько сам объем цифровых данных, а комплекс специализированных методов их обработки. Порогом, за которым наступает необходимость их применять, принят поток не менее 100 гигабайт в сутки.
Идея обработки гигантских объемов разнообразных данных, наряду с облачными вычислениями и развитием методов анализа, стала новым вектором информатизации. Она станет еще актуальней в самом близком будущем: по прогнозам International Data Corporation (IDC) львиный объем данных уже генерируют корпорации, банки, цифровые госсервисы как казахстанский eGov, и не только.
Откуда берутся данные?
Мировой объем бигдаты можно сравнить с морем, которое непрерывно питают несколько рек. Вот несколько основных источников:
Первый — документы, попадающие в сеть — файлов Microsoft Word, PDF и т.д.
Второй — социальные сети и блоги. Аудитория одного только Instagram превышает миллиарда активных пользователей в месяц. Это как минимум 6 миллиардов лайков и комментариев, плюс 300 миллионов фотографий.
Третий — аудио/видео источники. К ним относятся, камеры слежения, регистраторы, коммуникационные и вещательные сети, персональное видео, выложенное на видеохостинги и т.д. С учётом высокого и сверхвысокого разрешения просто принять и сохранить всё это уже непросто.
Четвертый — многочисленные контрольно-измерительные устройства: бесконечные датчики, анализаторы, мониторы и другое оборудование для снабжения данными системы управления умных предприятий, городов и т.д.
Слишком хорошо – нехорошо
Очевидно, что обычные методы обработки данных для такого потока информации не годятся, хотя некоторые из них еще не потеряли актуальности. Представьте, что продаёте некий технический товар, который нужно сопровождать сервисом (запасные части, расходные материалы и т. д.), а также время от времени обновлять. Решение несложное — простая база данных, которая заполняется на основе покупательских анкет. Вести её может любой достаточно квалифицированный сотрудник.
Но вот дела пошли в гору, и теперь за вашим товаром выстраивается очередь. У сотрудника уже не остаётся времени, и он со злостью 8 часов подряд вбивает данные в базу. А последняя всё разрастается и разрастается, доходит до того, что на обработку простейшего запроса не хватает ресурсов дешевого компьютера позапрошлого поколения.
Ваши действия? Нанять ещё несколько человек с расчётом на работу только с клиентской базой, попутно организовав нечто вроде сервера баз данных локальных терминалов, на которых будут работать операторы. В терминологии IT-индустрии такое решение — это масштабирование по вертикали (scale up), означающее расширение ресурсов вычислительного узла.
А теперь представим, что продажи взлетели до небес, и вам теперь нужен полноценный интернет-магазин. Это значит, что теперь масштаб и объём коммуникаций вырастут на порядок, а необходимость оперативной и корректной обработки станет доминирующей. В таком случае понадобятся дополнительные вычислительные узлы, которым совершенно необязательно обладать выдающейся производительностью.
«Изюминка» — в организации работы. Сотни «слабых» офисных компьютеров, объединенные в кластер, обеспечивают совокупную мощь, сравнимую с возможностями ультра дорогих суперкомпьютеров. А несколько таких кластеров — это и есть та самая цифровая «мельница», которой под силу решение проблем Big Data.
Три шага к «Богу»
Благодаря современным технологиям в реальном времени обрабатываются терабайты данных с высокой скоростью и низкой задержкой. Такой подход называется Fast Data, и он уделяет особое внимание оперативной аналитике и принятию быстрых решений на основе данных, которые генерируются и поступают в систему непрерывно и в больших объемах.
Его результаты можно увидеть на примере контекстной рекламы, досаждающей на поисковых порталах. Стоит вам погуглить какой-нибудь гаджет, как на вас обрушивается поток рекламы техники.
Уровень Big Analytics оперирует с данными на 3–5 порядков выше. Главная его особенность — применение мощных AI-систем, совершенствующихся в процессе обучения. С их помощью уже можно добывать новые знания на основе анализа существующей информации. Такие комплексы, построенные по технологии MapReduce. Она обеспечивает автоматическое распараллеливание данных и их обработку на вычислительных кластерах.
АI-системы уже могут обыгрывать в шахматы гроссмейстеров, анализировать данные научных исследований, прогнозировать погоду и «прокручивать» сценарии геополитических катаклизмов. К самому высокому уровню, названному Дайоном Хинчклиффом Deep Insight, ещё предстоит подобраться. Здесь речь идет уже о глобальной самообучающейся интеллектуальной системе ,располагающей неограниченными вычислительными мощностями и применяющей самые изощренные аналитические методы.