Компьютерология - Информационный ресурс

Термин большие данные был введен. Big Data: аналитика и решения. Двигатель прогресса в сфере маркетинга и продаж

(дословно — большие данные )? Обратимся сначала к оксфордскому словарю:

Данные — величины, знаки или символы, которыми оперирует компьютер и которые могут храниться и передаваться в форме электрических сигналов, записываться на магнитные, оптические или механические носители.

Термин Big Data используется для описания большого и растущего экспоненциально со временем набора данных. Для обработки такого количества данных не обойтись без машинного обучения.

Преимущества, которые предоставляет Big Data:

  1. Сбор данных из разных источников.
  2. Улучшение бизнес-процессов через аналитику в реальном времени.
  3. Хранение огромного объема данных.
  4. Инсайты. Big Data более проницательна к скрытой информации при помощи структурированных и полуструктурированных данных.
  5. Большие данные помогают уменьшать риск и принимать умные решения благодаря подходящей риск-аналитике

Примеры Big Data

Нью-Йоркская Фондовая Биржа ежедневно генерирует 1 терабайт данных о торгах за прошедшую сессию.

Социальные медиа : статистика показывает, что в базы данных Facebook ежедневно загружается 500 терабайт новых данных, генерируются в основном из-за загрузок фото и видео на серверы социальной сети, обмена сообщениями, комментариями под постами и так далее.

Реактивный двигатель генерирует 10 терабайт данных каждые 30 минут во время полета. Так как ежедневно совершаются тысячи перелетов, то объем данных достигает петабайты.

Классификация Big Data

Формы больших данных:

  • Структурированная
  • Неструктурированная
  • Полуструктурированная

Структурированная форма

Данные, которые могут храниться, быть доступными и обработанными в форме с фиксированным форматом называются структурированными. За продолжительное время компьютерные науки достигли больших успехов в совершенствовании техник для работы с этим типом данных (где формат известен заранее) и научились извлекать пользу. Однако уже сегодня наблюдаются проблемы, связанные с ростом объемов до размеров, измеряемых в диапазоне нескольких зеттабайтов.

1 зеттабайт соответствует миллиарду терабайт

Глядя на эти числа, нетрудно убедиться в правдивости термина Big Data и трудностях сопряженных с обработкой и хранением таких данных.

Данные, хранящиеся в реляционной базе — структурированы и имеют вид,например, таблицы сотрудников компании

Неструктурированная форма

Данные неизвестной структуры классифицируются как неструктурированные. В дополнении к большим размерам, такая форма характеризуется рядом сложностей для обработки и извлечении полезной информации. Типичный пример неструктурированных данных — гетерогенный источник, содержащий комбинацию простых текстовых файлов, картинок и видео. Сегодня организации имеют доступ к большому объему сырых или неструктурированных данных, но не знают как извлечь из них пользу.

Полуструктурированная форма

Эта категория содержит обе описанные выше, поэтому полуструктурированные данные обладают некоторой формой, но в действительности не определяются с помощью таблиц в реляционных базах. Пример этой категории — персональные данные, представленные в XML файле.

Prashant RaoMale35 Seema R.Female41 Satish ManeMale29 Subrato RoyMale26 Jeremiah J.Male35

Характеристики Big Data

Рост Big Data со временем:

Синим цветом представлены структурированные данные (Enterprise data), которые сохраняются в реляционных базах. Другими цветами — неструктурированные данные из разных источников (IP-телефония, девайсы и сенсоры, социальные сети и веб-приложения).

В соответствии с Gartner, большие данные различаются по объему, скорости генерации, разнообразию и изменчивости. Рассмотрим эти характеристики подробнее.

  1. Объем . Сам по себе термин Big Data связан с большим размером. Размер данных — важнейший показатель при определении возможной извлекаемой ценности. Ежедневно 6 миллионов людей используют цифровые медиа, что по предварительным оценкам генерирует 2.5 квинтиллиона байт данных. Поэтому объем — первая для рассмотрения характеристика.
  2. Разнообразие — следующий аспект. Он ссылается на гетерогенные источники и природу данных, которые могут быть как структурированными, так и неструктурированными. Раньше электронные таблицы и базы данных были единственными источниками информации, рассматриваемыми в большинстве приложений. Сегодня же данные в форме электронных писем, фото, видео, PDF файлов, аудио тоже рассматриваются в аналитических приложениях. Такое разнообразие неструктурированных данных приводит к проблемам в хранении, добыче и анализе: 27% компаний не уверены, что работают с подходящими данными.
  3. Скорость генерации . То, насколько быстро данные накапливаются и обрабатываются для удовлетворения требований, определяет потенциал. Скорость определяет быстроту притока информации из источников — бизнес процессов, логов приложений, сайтов социальных сетей и медиа, сенсоров, мобильных устройств. Поток данных огромен и непрерывен во времени.
  4. Изменчивость описывает непостоянство данных в некоторые моменты времени, которое усложняет обработку и управление. Так, например, большая часть данных неструктурирована по своей природе.

Big Data аналитика: в чем польза больших данных

Продвижение товаров и услуг : доступ к данным из поисковиков и сайтов, таких как Facebook и Twitter, позволяет предприятиям точнее разрабатывать маркетинговые стратегии.

Улучшение сервиса для покупателей : традиционные системы обратной связи с покупателями заменяются на новые, в которых Big Data и обработка естественного языка применяется для чтения и оценки отзыва покупателя.

Расчет риска , связанного с выпуском нового продукта или услуги.

Операционная эффективность : большие данные структурируют, чтобы быстрее извлекать нужную информацию и оперативно выдавать точный результат. Такое объединение технологий Big Data и хранилищ помогает организациям оптимизировать работу с редко используемой информацией.

Big Data – англ. «большие данные». Термин появился как альтернатива СУБД и стал одним из основных трендов IT-инфраструктуры, когда большинство гигантов индустрии – IBM, Microsoft, HP, Oracle и другие начали использовать это понятие в своих стратегиях. Под Big Data понимают огромный (сотни терабайт) массив данных, который нельзя обработать традиционными способами; иногда – инструменты и методы обработки этих данных.

Примеры источников Big Data: события RFID, сообщения в соцсетях, метеорологическая статистика, информация о местонахождении абонентов сетей мобильной сотовой связи и данные с устройств аудио-/видеорегистрации. Поэтому «большие данные» широко используются на производстве, в здравоохранении, госуправлении, интернет-бизнесе – в частности, при анализе целевой аудитории.

Характеристика

Признаки big data определяются как «три V»: Volume – объем (действительно большие); variety – разнородность, множество; velocity – скорость (необходимость очень быстрой обработки).

Большие данные чаще всего неструктурированные, и для их обработки нужны особые алгоритмы. Кметодам анализа больших данных относятся:

  • («добыча данных») – комплекс подходов для обнаружения скрытых полезных знаний, которые не могут быть получены стандартными способами;
  • Crowdsourcing (crowd — «толпа», sourcing – использование в качестве источника) – решение значимых задач общими усилиями добровольцев, не состоящих в обязательном трудовом договоре и отношениях, координирующих деятельность при помощи инструментов IT;
  • Data Fusion & Integration («смешение и внедрение данных») – набор методов для соединения множества источников в рамках проведения глубокого анализа;
  • Machine Learning («машинное обучение») – подраздел исследований искусственного интеллекта, изучающий методы использования анализа статистики и получения прогнозов на основе базовых моделей;
  • распознавание образов (например, распознавание лиц в видоискателе фотоаппарата или видеокамеры);
  • пространственный анализ – использование топологии, геометрии и географии для построения данных;
  • визуализация данных – вывод аналитической информации в виде иллюстраций и диаграмм при помощи интерактивных инструментов и анимации для отслеживания результатов и построения фундамента дальнейшего мониторинга.

Хранение и анализ информации осуществляется на большом количестве серверов высокой производительности. Ключевой технологией является Hadoop, с открытым исходным кодом.

Так как количество информации со временем будет только увеличиваться, то сложность состоит не в том, чтобы получить данные, а в том как их обработать с максимальной пользой. В целом, процесс работы с Big Data включает в себя: сбор информации, ее структурирование, создание инсайтов и контекстов, разработка рекомендаций к действию. Еще до первого этапа важно четко определить цель работы: для чего именно нужны данные, к примеру – определение целевой аудитории продукта. Иначе есть риск получить массу сведений без понимания о том, как конкретно их можно использовать.

В русскоязычной среде используется как термин Big Data , так и понятие «большие данные». Термин «большие данные» - это калька англоязычного термина. Большие данные не имеют строгого определения. Нельзя провести четкую границу - это 10 терабайт или 10 мегабайт? Само название очень субъективно. Слово «большое» - это как «один, два, много» у первобытных племен.

Однако есть устоявшееся мнение, что большие данные - это совокупность технологий, которые призваны совершать три операции. Во-первых, обрабатывать бо́льшие по сравнению со «стандартными» сценариями объемы данных. Во-вторых, уметь работать с быстро поступающими данными в очень больших объемах. То есть данных не просто много, а их постоянно становится все больше и больше. В-третьих, они должны уметь работать со структурированными и плохо структурированными данными параллельно в разных аспектах. Большие данные предполагают, что на вход алгоритмы получают поток не всегда структурированной информации и что из него можно извлечь больше чем одну идею.

Типичный пример больших данных - это информация, поступающая с различных физических экспериментальных установок - например, с , который производит огромное количество данных и делает это постоянно. Установка непрерывно выдает большие объемы данных, а ученые с их помощью решают параллельно множество задач.

Появление больших данных в публичном пространстве было связано с тем, что эти данные затронули практически всех людей, а не только научное сообщество, где подобные задачи решаются давно. В публичную сферу технологии Big Data вышли, когда речь стала идти о вполне конкретном числе - числе жителей планеты. 7 миллиардов, собирающихся в социальных сетях и других проектах, которые агрегируют людей. YouTube , Facebook , ВКонтакте , где количество людей измеряется миллиардами, а количество операций, которые они совершают одновременно, огромно. Поток данных в этом случае - это пользовательские действия. Например, данные того же хостинга YouTube , которые переливаются по сети в обе стороны. Под обработкой понимается не только интерпретация, но и возможность правильно обработать каждое из этих действий, то есть поместить его в нужное место и сделать так, чтобы эти данные каждому пользователю были доступны быстро, поскольку социальные сети не терпят ожидания.

Многое из того, что касается больших данных, подходов, которые используются для их анализа, на самом деле существует довольно давно. Например, обработка изображений с камер наблюдения, когда мы говорим не об одной картинке, а о потоке данных. Или навигация роботов. Все это существует десятки лет, просто сейчас задачи по обработке данных затронули гораздо большее количество людей и идей.

Многие разработчики привыкли работать со статическими объектами и мыслить категориями состояний. В больших данных парадигма другая. Ты должен уметь работать с непрекращающимся потоком данных, и это интересная задача. Она затрагивает все больше и больше областей.

В нашей жизни все больше аппаратных средств и программ начинают генерировать большое количество данных - например, «интернет вещей».

Вещи уже сейчас генерируют огромные потоки информации. Полицейская система «Поток» отправляет со всех камер информацию и позволяет находить машины по этим данным. Все больше входят в моду фитнес-браслеты, GPS-трекеры и другие вещи, обслуживающие задачи человека и бизнеса.

Департамент информатизации Москвы набирает большое количество аналитиков данных, потому что статистики по людям накапливается очень много и она многокритериальная (то есть о каждом человеке, о каждой группе людей собрана статистика по очень большому количеству критериев). В этих данных надо находить закономерности и тенденции. Для таких задач необходимы математики с IT-образованием. Потому что в конечном итоге данные хранятся в структурированных СУБД, и надо уметь к ним обращаться и получать информацию.

Раньше мы не рассматривали большие данные как задачу по той простой причине, что не было места для их хранения и не было сетей для их передачи. Когда эти возможности появились, данные тут же заполнили собой весь предоставленный им объем. Но как бы ни расширяли пропускную способность и способность к хранению данных, всегда найдутся источники, допустим, физические эксперименты, эксперименты по моделированию обтекаемости крыла, которые будут продуцировать информации больше, чем мы можем передать. По закону Мура, производительность современных параллельных вычислительных систем стабильно возрастает, растут и скорости сетей передачи данных. Однако данные нужно уметь быстро сохранять и извлекать с носителя (жесткого диска и других видов памяти), и это еще одна задача в обработке больших данных.

Только ленивый не говорит о Big data, но что это такое и как это работает - понимает вряд ли. Начнём с самого простого - терминология. Говоря по-русски, Big data - это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы их использовать для конкретных задач и целей.

Неструктурированные данные - это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

Термин «большие данные» ввёл редактор журнала Nature Клиффорд Линч ещё в 2008 году в спецвыпуске, посвящённом взрывному росту мировых объёмов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.

Читайте также:

Сегодня под этим простым термином скрывается всего два слова - хранение и обработка данных.

Big data - простыми словами

В современном мире Big data - социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.

Читайте также:

Для простоты понимания представьте супермаркет, в котором все товары лежат не в привычном вам порядке. Хлеб рядом с фруктами, томатная паста около замороженной пиццы, жидкость для розжига напротив стеллажа с тампонами, на котором помимо прочих стоит авокадо, тофу или грибы шиитаке. Big data расставляют всё по своим местам и помогают вам найти ореховое молоко, узнать стоимость и срок годности, а еще - кто, кроме вас, покупает такое молоко и чем оно лучше молока коровьего.

Кеннет Кукьер: Большие данные - лучшие данные

Технология Big data

Огромные объёмы данных обрабатываются для того, чтобы человек мог получить конкретные и нужные ему результаты для их дальнейшего эффективного применения.

Читайте также:

Фактически, Big data - это решение проблем и альтернатива традиционным системам управления данными.

Техники и методы анализа, применимые к Big data по McKinsey:

  • Data Mining;
  • Краудсорсинг;
  • Смешение и интеграция данных;
  • Машинное обучение;
  • Искусственные нейронные сети;
  • Распознавание образов;
  • Прогнозная аналитика;
  • Имитационное моделирование;
  • Пространственный анализ;
  • Статистический анализ;
  • Визуализация аналитических данных.

Горизонтальная масштабируемость, которая обеспечивает обработку данных - базовый принцип обработки больших данных. Данные распределены на вычислительные узлы, а обработка происходит без деградации производительности. McKinsey включил в контекст применимости также реляционные системы управления и Business Intelligence.

Технологии:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • Аппаратные решения.

Читайте также:

Для больших данных выделяют традиционные определяющие характеристики, выработанные Meta Group ещё в 2001 году, которые называются «Три V »:

  1. Volume - величина физического объёма.
  2. Velocity - скорость прироста и необходимости быстрой обработки данных для получения результатов.
  3. Variety - возможность одновременно обрабатывать различные типы данных.

Big data: применение и возможности

Объёмы неоднородной и быстро поступающей цифровой информации обработать традиционными инструментами невозможно. Сам анализ данных позволяет увидеть определённые и незаметные закономерности, которые не может увидеть человек. Это позволяет оптимизировать все сферы нашей жизни - от государственного управления до производства и телекоммуникаций.

Например, некоторые компании ещё несколько лет назад защищали своих клиентов от мошенничества, а забота о деньгах клиента - забота о своих собственных деньгах.

Сюзан Этлиджер: Как быть с большими данными?

Решения на основе Big data: «Сбербанк», «Билайн» и другие компании

У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных - Rapidminer и Python.

Читайте также:

Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество. Система была внедрена ещё в 2014 году, в основе системы - сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы - биометрическая платформа. Благодаря этому, случаи мошенничества уменьшились в 10 раз.

Big data в мире

К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.

Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность - критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день.

Рынок Big data в России

В 2017 году мировой доход на рынке big data должен достигнуть $150,8 млрд, что на 12,4% больше, чем в прошлом году. В мировом масштабе российский рынок услуг и технологий big data ещё очень мал. В 2014 году американская компания IDC оценивала его в $340 млн. В России технологию используют в банковской сфере, энергетике, логистике, государственном секторе, телекоме и промышленности.

Читайте также:

Что касается рынка данных, он в России только зарождается. Внутри экосистемы RTB поставщиками данных выступают владельцы программатик-платформ управления данными (DMP) и бирж данных (data exchange). Телеком-операторы в пилотном режиме делятся с банками потребительской информацией о потенциальных заёмщиках.

Обычно большие данные поступают из трёх источников:

  • Интернет (соцсети, форумы, блоги, СМИ и другие сайты);
  • Корпоративные архивы документов;
  • Показания датчиков, приборов и других устройств.

Big data в банках

Помимо системы, описанной выше, в стратегии «Сбербанка» на 2014-2018 гг. говорится о важности анализа супермассивов данных для качественного обслуживания клиентов, управления рисками и оптимизации затрат. Сейчас банк использует Big data для управления рисками, борьбы с мошенничеством, сегментации и оценки кредитоспособности клиентов, управления персоналом, прогнозирования очередей в отделениях, расчёта бонусов для сотрудников и других задач.

«ВТБ24» пользуется большими данными для сегментации и управления оттоком клиентов, формирования финансовой отчётности, анализа отзывов в соцсетях и на форумах. Для этого он применяет решения Teradata, SAS Visual Analytics и SAS Marketing Optimizer.

Волкова Юлия Сергеевна,студентка 4 курса, Финансовый университет при Правительстве Российской Федерации, Калужский филиал, г. Калуга[email protected]

Большие Данные в современном мире

Аннотация.Статья посвящена внедрению технологий Больших Данных в наше современное общество. Исследованы основные характеристики Больших Данных, рассмотрены основные сферы применения, такие как банковская сфера, ритейл, частный и государственный сектор и даже повседневная жизнь. Исследование выявило недостатки использования технологий Больших Данных. Обозначена необходимость развития нормативного регулирования использования Больших Данных.Ключевые слова: Большие Данные, банки, банковская сфера, ритейл, частный сектор, государственный сектор.

По мере увеличения степени встраиваемости средств информационныхтехнологийв различные направления современного общества возрастают и требования к их адаптируемостидлярешенияновых задач, которые предполагают огромные объемы данных. Есть такие объемы информации,которые невозможно обрабатывать традиционными способами, в том числе структурированные данные, медиаданные и случайные объекты. И если с анализом первых существующие сегодня технологии болееменее справляются, то анализ вторых и третьих практически остается непосильным трудом. Исследования показывают, что объемы медиаданных, таких как результаты видеонаблюдения, аэрофотосъемки, цифровая медицинская информация, и случайных объектов, хранящихся в многочисленных архивах и облаках, увеличивается год от года.Огромный объем данных стал глобальным процессом и получил определение Большие Данные. Исследованию Больших Данных посвящены труды как зарубежных, так и российских ученых: James Manyika, Michael Chui, Топорков В.В., Будзко В.И. Существенныйвклад в изучение этой технологии вносят крупные мировые компании, такие как: McKinsey& Company, СNews Analytics, SAP, Oracle, IBM, Microsoft, Teradataи многие другие. Онизанимаются обработкой и анализом данных и на основе Больших данных создаютпрограммноаппаратные комплексы.Согласно отчету McKinsey Institute: «Большие Данные –это набор данных,размер которых выходит за пределы возможностей типовых баз данных программных инструментов для захвата, хранения, управления и анализа данных». В сущности, понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава,постоянно обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Консалтинговая компания Forrester дает краткую и достаточно понятную формулировку: «Большие данныеобъединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности».На сегодняшний день сфера Больших Данных характеризуется следующими признаками: Volume–объем, накопленная база данных представляет собой большой объем информации.Velocity–скорость, данный признак указывает как на увеличивающуюся скорость накопления данных (90% информации было собрано за последние 2 года).Variety–многообразие, т.е. возможность одновременной обработки, структурированнойи неструктурированной разноформатной информации. Эксперты из числа маркетологов полюбили добавлять сюда свои «V». Ктото говорит еще о достоверности (veracity), другие добавляют, что технологии больших данных непременно должны приносить пользу бизнесу (value).Ожидается, что к 2020 г. накопленный объем информации на планете будет удваиваться каждые два года. Обилие данных вызывает желание использовать их для анализа и прогнозирования. Колоссальные объемы требуют соответствующих технологий. Сегодня компании должны обрабатывать колоссальное количество данных в объемах, которые трудно представить, это приводит к тому, что традиционные базы данных не могут справиться с такой задачей, и это приводит к необходимости внедрять технологии Больших данных. В таблицепредставлена сравнительная характеристика Больших данных и традиционных баз данных. Основанием для формирования данной таблицы послужили исследования Будзко В. И. и Московской биржи.Таблица 1 Сравнительная характеристика больших данных и традиционных данных

Традиционные базы данныхБольшие ДанныеОбласть применения

Одна или более предметная область примененияСфера применения технологий Больших Данных обширна. От выявления предпочтений клиентов до анализа рисковХарактеристика данныхТолько структурированные данныеОгромные массивы информации со сложной неоднородной и\или неопределенной структуройСпособ хранения данныхЦентрализованныйДецентрализованныйМодель хранения и обработки данныхВертикальная модельГоризонтальная модельКоличество информации для обработкиОт гигабайта (109байт) до терабайт (1012байт)От петабайт (1015байт) до эксабайт (1018 байт)Так, область применения традиционных баз данных охватывает всего одну или несколько, при том такие области должны содержатьтолько структурированные данные. Что касается Больших Данных, то сфера их применения обширна с огромными массивами информации со сложной структурой.Согласно результатам исследования СNews Analytics, представленных на рисунке 1,российский рынок приходит к такому явлению как Большие Данные, что показывает повышение уровня зрелости компаний. Многие фирмы переходят на технологии Больших Данных изза объема их обрабатываемых данных, уже сейчас более 44% генерируют около 100 терабайт, а у 13% эти объемы данныхпревышают 500 терабайт.

Рис.1. Объемы информации, обрабатываемые в компаниях

Такие объемы невозможно обрабатывать традиционными базами данных, поэтому такие компании видят решение перехода на Большие Данные не просто как обработку огромных объемов, но и как повышение конкурентоспособности, увеличения лояльности покупателя к своему продукту и привлечения новых. Наиболее активными заказчиками таких решений являются банки, телеком и ритейл, их процентное соотношение представлено на рисунке 2.Менее заметно количество компаний, которые используют или готовы использовать большие данные в транспортной отрасли и энергетики, промышленности. Первые примеры использования больших данных появились и в госсекторе.

Рис.2. Отраслевая структура использования Больших Данных

Что касается Западного правительства, поразным оценкам, цифровая экономика составляет от3% до21% ВВП стран большой двадцатки. Российский госсектор пока не добился значимых результатов в работе с большими данными. Сегодня в России подобными технологиями интересуются в основном коммерческие предприятия: торговые сети, банки, телекоммуникационные компании.Пооценке Российскойассоциацииэлектронныхкоммуникаций, объем цифровой экономики вРФ составляет всего 1 трлн. руб. -около 1,5% отВВП. Тем не менее, уРФ есть огромный потенциал роста цифровой экономики.Несмотря на малый срок существования сектора Big Data, уже есть оценки эффективного использования этих технологий, основанные на реальных примерах. Банки сегодня в среднем обрабатывают примерно 3,8 петобайт данных, они используют технологии Больших Данных для достижения определенных задач: сбор данных о использовании кредитных карточек;сбор данных о залогах;сбор данных о кредитах;44%16%13%7%20%БанкиТелекомРитейлГоссекторДругиесбор данных о профилях клиента;сбор данных о сбережениях клиента.Банки заявляют, что после того, как они начали пользоваться технологиями Больших Данных, они смогли привлечь новых клиентов, лучше взаимодействовать как с новыми, так и со старыми клиентами и поддерживать их лояльность. В 2015 г. CNews Analyticsпровел опрос среди тридцати крупнейших российских банков по совокупным активам, чтобы узнать, какие технологии больших данных они применяют и с какими целями. По сравнению с опросом 2014 г., число банков топ30, сообщивших о применении технологий больших данных, увеличилось, но это изменение связано скорее с изменением состава топ30. На рисунке 3представлено сравнение опроса 2015 по сравнению с 2014 годом наоснове опроса Кирьяновой А.

Рис. 3. Использование Больших Данных топ30 российскими банками

По оценкам компании IBS, 80% банков, ответивших положительно, внедряют Big Data Appliance–программноаппаратные комплексы для хранения и обработки данных. Эти решения обычно выступают в качестве аналитического или транзакционного хранилища, главное преимущество которого –высокая производительность при работе с большими объемами данных.Тем не менее, практика применения больших данных в российских банках находится на этапе становления. Причина такой медленной адаптации в России проявляется в настороженном отношении ИТспециалистов заказчиков к новым технологиям. Они не испытывают уверенности в том, что технологии больших данных помогут решать задачи в полном объеме.А вот что касается американского рынка, там банки уже накопили 1 экзабайт данных, который можно сравнить с 275 млрд записей mp3. Количество источников, откуда поступает информация,обширно, из них можно выделить классические: посещение клиентов офисов банка;записи телефонных звонков;поведение клиентов в социальных сетях;сведения об операциях по кредитным карточками другое.Офлайнрозница использует большие данные, чтобы анализировать поведение покупателей, проектировать маршруты следования по торговому залу, правильно расставить товары, планировать закупки, и, в конечном итоге, повысить продажи. В онлайнрознице на больших данных строится сам механизм продаж: пользователям предлагают товары на базе предыдущих покупок и их персональных предпочтений, информация о которых собирается, например, в соцсетях. В обоих случаях анализ больших данных помогает сократить издержки, повысить лояльность клиентов и охватить большую аудиторию.По мере развития торгового потенциала компаний, традиционные база данных перестают отвечать растущим требованиям бизнеса, изза чего система не может обеспечить должной детализации управленческого учета. Переходя на большие данные, новые технологии позволяют оптимизировать управление товародвижением, добиться актуальности данных и оперативности их обработки дляоценки последствий управленческих решений, быстро формировать управленческую отчетность. Общий объем накопленных данных составляет более 100 экзабайт, при том только Walmart c помощью больших данных обрабатывает в час 2,5 Петабайт данных. При том, от использования технологий Больших Данных на 60% увеличивается операционная рентабельность, а также по статистке Hadoop после внедрения Больших данных производительность аналитики увеличивается до обработки 120 алгоритмов, а прибыль растет на 710%.Но если взять в рассмотрение Российский ритейл, то тут Большие Данные только начинают набирать обороты, так как разрыв по обработке информации сильно отличается. Так, например, онлайнрозница в 18 раз меньше чем в Китае, и весь оборот данных, который производится в онлайнрознице в 4,5 раза меньше одного магазина Amazon. При этом число онлайнмагазинов в России, которые используют Большие данные меньше 40 тысяч, в то время, как Европе, число таких магазинов больше 550 тысяч. Что характеризует российский рынок ритейла как еще развивающийся и не до конца сформировавшийся. Что касается нашей повседневной жизни, то и здесь используются технологии Больших Данных, о которых мы даже не задумывались.15 млн композиций каждый день, а это примерно 1,5~2 петабайта, обрабатывает shazam, музыкальный сервис, по всему миру, и на основе этого потом музыкальные продюсеры прогнозируют популярность артиста. Большие данные так же используются для обработки информации по кредитным картам, таким как mastercard и visa. Таким образом, 65 млрд транзакций за год с помощью 1,9 млрд карт в 32 млн торговых фирм обрабатывает mastercard для прогнозирования торговых трендов. Ежедневно, людипо всему миру пишут в социальных сетях,таких как twitter и facebook, на 19 терабайт данных. Они загружают и обрабатывают фотографии, пишут, пересылают сообщения и так далее. Инфраструктура также пользуется технологиями Больших Данных, от троллейбусов досамолетов и ракет. Так, в лондонском метро каждый день турникеты фиксируют около 20 млн проходов, в результате анализа, проведенного на базе технологий Больших данных, определено 10 всевозможных эпицентров, что так же учитывается при дальнейшем развитии метро. Несомненно, разнообразие и объем данных, возникающих в результате всевозможных взаимодействий, является мощной базой для бизнеса по построению и уточнению прогнозов, выявлению закономерностей, оценки эффективности и т.д. Однако у всего есть своинедостатки, которые также необходимо грамотно учитывать.Несмотря на явные и потенциальные преимущества использования Больших Данных, их использование имеет и свои недостатки, которые в первую очередь связаны с большими объемами информации, разными методами доступа к ней и с зачастую недостаточным ресурсным обеспечением функции информационной безопасности в организациях. Проблемы, которые связаны с использованием технологий Больших Данных представлены на рисунке 4.

Рис. 4. Проблемы использования Больших Данных

Все эти проблемы приводят к тому, что многие компании с опаской вводят технологии больших данных, так как при работе с третьими лицами у них самих возникает проблема раскрытия инсайда, который компания не могла бы раскрыть, используя толькособственные ресурсы.По моему мнению,самым главным шагом на пути полного внедрения технологий на базе больших данных должно быть именно законодательный аспект. Сейчас уже существуют законы, ограничивающие сбор, использование, хранение определенных типов личных данных, но они не ограничивают полностью большие данные, поэтому для них должны существовать специальные законодательные нормы. Для того чтобы соответствовать быстро меняющимся и новым законам, компании должны выполнять начальную инвентаризацию соответствующих нормативных правовых актов и на регулярной основе обновлять данный список.Тем не менее, несмотря на все выше перечисленные недостатки, как показывает опыт западных представителей, технологии Больших Данных помогают успешно решать, как современные бизнесзадачи и повышение конкурентоспособности, так и задачи, связанные непосредственно с жизнью людей. Российские компании уже сейчас находятся на пути внедрения технологий Больших Данных как в производственную сферу, так и в общественную, так как количество информации с каждым годом увеличивает практически в двое. Со временем, множество сфер нашей жизни подвергнется изменению под влиянием Больших Данных.

Ссылки на источники1.БудзкоВ. И. Системы высокой доступности и Большие Данные // Большие данные в национальной экономике 2013. С. 1619.2.Короткова Т. «EMC Data Lake 2.0 -средство перехода к аналитике больших данных и цифровой экономике» http://bigdata.cnews.ru/news/line/20151203_emc_data_lake_20_pomozhet_perejti_k_analitike.3.Кирьянова А. «Большие данные не стали мэйнстримом в российских банках» http://www.cnews.ru/news/top/bolshie_dannye_ne_stali_mejnstrimom.4.CNews«Инфографика: Большие данные пришли в Россию» http://bigdata.cnews.ru/articles/infografika_bolshie_dannye_prishli_v_rossiyu.5.CNews«Инфографика: Как розница использует большие данные» http://bigdata.cnews.ru/articles/infografika_kak_roznitsa_ispolzuet в мире отсутствуют специальные законодательные нормы в отношении Big Data данные должны быть замаскированы в целях сохранности исходных источников данных компании должны быть уверены в том, что все требования безопасности в отношении данных отслеживаются и поддерживаются внедрение Big Dataрешений может привести к созданию или обнаружению ранее конфиденциальной информацииУправление данными Поддержание требований к безопасности данных Законадательные нормыРеидентификация риска6.CNews«Инфографика: Технологии BigData» http://bigdata.cnews.ru/articles/big_data_v_zhizni_cheloveka.7.CNews«Инфографика: Что могут большие данные в банках» http://bigdata.cnews.ru/articles/infografika_chto_mogut_bolshie_dannye.8.Московская биржа «АналитическийобзоррынкаBigData» http://habrahabr.ru/company/moex/blog/256747/9.Большие данные (BigData). http://www.tadviser.ru/index.php/Статья:Большие_данные_(Big_Data).10.BigData–электричество XXIвека http://bit.samag.ru/archive/article/1463.11.McKinsey Global institute «Bigdata: The next frontier for innovation, competitionand productivity» (June 2011).