Buch lesen: "Большие данные. Зачем, что и как?", Seite 2
Учебник посвящен основам работы с Большими Данными. Его задача – помочь вам разобраться в теме и начать использовать Большие Данные с пользой для дела.
Если вы захотите углубиться в предмет, в учебнике вы найдете списки рекомендуемой литературы и использованных источников.
∞
Что вы изучите?
Вам предстоит изучить:
1. Основные понятия и определения.
2. Пользу и перспективу применения Больших Данных в различных сферах деятельности.
3. Содержание и основные принципы цикла работы с Большими Данными.
4. Ключевые моменты сбора, хранения и анализа данных.
5. Способы моделирования и применения полученных данных.
Это позволит вам:
1. Оценивать необходимость и пользу применения Больших Данных в вашем конкретном случае.
2. Понимать основные принципы сбора, хранения, управления и обработки Больших Данных.
3. Иметь представление о методах и результатах анализа Больших Данных.
4. Общаться с экспертами по Большим Данным в одном информационном поле.
Желаем эффективного и полезного обучения!
Глава 1
Что такое Большие Данные и зачем с ними работать?

Вы изучите:
– Что дает использование Больших Данных?
– Основные принципы работы.
После изучения вы:
– Сможете определить необходимость работы с Большими Данными для ваших целей;
– Поймете, какую пользу принесут Большие Данные вашему делу;
– Определите основные этапы и направления работы с Большими Данными;
– Предварительно оцените имеющиеся ресурсы, потенциальные потребности и возможности для работы с Большими Данными.
∞
Что дает использование Больших Данных?
Вначале рекомендуем сфокусировать свое внимание и ответить на следующий вопрос:
Что я хочу сейчас изучить? Какие у меня есть вопросы?
Прежде чем узнать о пользе Больших Данных (далее БД), необходимо определить, что же это такое?
Подумайте над ситуацией
Представьте себе: коллега поделился с вами переживанием. Ему приходится иметь дело с большим объемом информации, а он считает, что работа с БД – это уже другой уровень, выходящий за рамки его должности:
«Мне иногда приходится анализировать огромные списки транзакций: что, кто, где, когда, сколько. От этих однообразных таблиц уже в глазах рябит. Это же Большие Данные! Мне за это не платят!»
Какие утверждения верны в подобной ситуации?
Используйте подсказку! Среди вариантов ниже есть несколько оптимальных:
– Много данных – это Большие Данные. Коллега прав – для этого существуют особые специалисты.
– Данные должны соответствовать нескольким критериям, и один из них – разнообразие источников.
– Если основной источник этих данных – всемирная сеть, то это Большие Данные.
– Большие Данные характеризуются не только объемом информации.
Попробуйте самостоятельно ответить на вопрос, прежде чем продолжить читать главу и узнать, как можно было бы ответить.
Что такое Большие Данные?
Для начала давайте определимся, какие данные обозначают термином Большие Данные (часто используют английское выражение Big Data).
Структурированные данные, которые легко анализировать и которые созданы по определенным алгоритмам, упрощающим автоматизацию работы с ними, не являются Большими Данными, даже если это огромная таблица. Даже если невероятно огромная.
Можно ли тогда назвать Большими Данными какую-то конкретную, объемную и неструктурированную информацию? Нет. Информация – это то, что стремится сообщить нам что-то определенное. Каким бы объемным и сложным ни был учебник по квантовой механике, как бы тяжело ни было обрабатывать компьютерными алгоритмами «Войну и мир», они останутся большими источниками информации.
Даже если мы используем очень объемный и сложный источник информации сам по себе, в отрыве от других источников – это не Большие Данные
На заметку:
Когда данные и информация становятся Большими Данными?
Когда говорят о Больших Данных, часто выделяют три характеристики или три V: Volume, Velocity, Variety.
Volume. Объем. Приходящие к вам данные должны быть достаточно велики. Современный критерий – 100–140 Гб в сутки, однако со временем величина растет.
Velocity. Скорость. Информация поступает с высокой скоростью и из разных источников. Вы получаете данные без перерыва и с постоянно растущей скоростью.
Variety. Разнообразие. Вы бессистемно получаете структурированную и неструктурированную информацию в различных форматах (таблицы, тексты, видео, аудио, фото, транзакции, данные с датчиков и т. д.)
