Жизненный цикл данных что это

Жизненный цикл данных

Данные – это что-то непонятное, неопределенное, как бесформенный прозрачный кислород. Вроде есть, вроде важен, но с чего начать?

Но во всех взглядах есть общее ядро, которое разделяется каждым из участников и является одним из ключевых факторов выбора и реализации стратегии – это понимание цикла работы с данными. Я выделил несколько моделей, иллюстрирующих наиболее полный жизненный путь данных внутри организации.

Например, модель Малькольма Чисхолма[19] выделяет семь активных фаз взаимодействия с данными:

1. Data Capture – создание или сбор значений данных, которые еще не существуют и никогда не существовали в компании.

а. Data Acquisition – покупка данных, предложенных внешними компаниями;

b. Data Entry – генерация данных ручным вводом, при помощи мобильных устройств или программного обеспечения;

c. Signal Reception – получение данных с помощью телеметрии (интернет-вещей).

2. Data Maintenance – передача данных в точки, где происходит синтез данных и их использование в форме, наиболее подходящей для этих целей. Она часто включает в себя такие задачи, как перемещение, интеграция, очистка, обогащение, изменение данных, а также процессы экстракции-преобразования-нагрузки;

3. Data Synthesis – создание ценности из данных через индуктивную логику, использование других данных в качестве входных данных.

4. Data Usage – применение данных как информации для задач, которые должно запускать и выполнять предприятие. Использование данных имеет специальные задачи управления ими. Одна из них заключается в выяснении того, является ли законным использование данных в том виде, в котором хочет бизнес. Это называется «разрешенным использованием данных». Могут существовать регулирующие или контрактные ограничения на то, как фактически можно использовать данные, а часть роли управления данными заключается в обеспечении соблюдения этих ограничений.

5. Data Publication – отправка данных в место за пределами предприятия. Примером может служить брокеридж, который отправляет ежемесячные отчеты своим клиентам. После того, как данные были отправлены за пределы предприятия, де-факто невозможно их отозвать. Неверные значения данных не могут быть исправлены, поскольку они уже недоступны для предприятия. Управление данными может потребоваться, чтобы помочь решить, как будут обрабатываться неверные данные, которые были отправлены инвесторам.

6. Data Archival – копирование данных в среду, где они хранятся, до тех пор, пока не понадобятся снова для активного использования и удаления из всех активных производственных сред.

7. Data Purge – удаление каждой копии элемента данных с предприятия. В идеале это необходимо делать из архива, так как реализация задачи управления данными на этом этапе жизненного цикла данных определит, что очистка действительно была выполнена должным образом.

При работе с описанной моделью стоит отметить важные допущения:

• «Жизненный путь» – не совсем корректный термин, потому что данные сами себя не воспроизводят, более близкое значение – «история данных», но предлагается его не менять, из-за того, что текущего значения придерживается большинство участников рынка.

• Данные не обязательно должны проходить все семь фаз взаимодействия.

• Фазы взаимодействия не обязательно выстраиваются в конкретную последовательность. В реальности фазы могут проявляться в хаотичном порядке.

• Часть профессионального сообщества так же использует аббревиатуру ILM (Information Lifecyle Management). Разница[20] между двумя понятия состоит в следующем:

Жизненный цикл данных что это. Смотреть фото Жизненный цикл данных что это. Смотреть картинку Жизненный цикл данных что это. Картинка про Жизненный цикл данных что это. Фото Жизненный цикл данных что это

Иными словами, по одной из версий управление данными является подмножеством цикла управления информацией, а сами подходы по управлению информацией уже являются подходами по управлению знаниями (Knowledge Management) в организации.

Но стратегия управления данными сама по себе является самостоятельным звеном в этой сложной цепочке. Поэтому, даже не рассматривая всю цепочку управления знаниями, можно с уверенностью сказать, что стратегия управления данными несет в себе самостоятельную ценность.

Утомил? А представьте, что в этом всем копается множество людей, которые в буквальном смысле спорят о дефинициях, правилах и отношениях.

Данный текст является ознакомительным фрагментом.

Источник

Жизненный цикл данных что это

Вы находитесь здесь:

Жизненный цикл данных

изненный цикл данных состоит из нескольких этапов:

2) Сбор данных (либо новых первичных данных, либо уже существующих). Определение форматов файлов данных.

3) Анализ данных, генерирование или поиск дополнительных данных, необходимых для проекта.

4) Отбор данных и определение периода их хранения.

5) Документирование. Обработка и структурирование данных, подготовка метаданных, организация файлов. Проверка требований к документированию и ограничений для учреждений и спонсоров исследования.

6) Архивирование. Обзор существующих источников данных, изучение различных аспектов по архивированию (возможные затраты, согласие авторов исследования и конфиденциальность, определение потенциальных пользователей данных и др.). Создание резервных копий.

7) Организация доступа. Публикация данных. Передача в архив данных, выбранных для хранения. Определение условий доступа. Цитирование данных.

8) Хранение и обеспечение сохранности с учетом меняющейся технологической среды. Организация долгосрочного хранения во время и после окончания работы над исследовательским проектом (зависит от наличия соответствующей технической инфраструктуры).

9) Повторное использование. Определение условий для повторного использования данных, предоставление доступа для других исследователей.

Жизненный цикл данных что это. Смотреть фото Жизненный цикл данных что это. Смотреть картинку Жизненный цикл данных что это. Картинка про Жизненный цикл данных что это. Фото Жизненный цикл данных что это

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Источник

Жизненный цикл процесса обработки и анализа данных группы

Процесс обработки и анализа данных группы (TDSP) выполняется в рамках рекомендуемого жизненного цикла, позволяя структурировать проекты по обработке и анализу данных. Жизненный цикл охватывает все этапы, из которых состоит успешный проект. Если вы используете другой жизненный цикл обработки и анализа данных, например межотраслевой стандартный процесс для исследования данных (CRISP-DM), обнаружение знаний в базах данных (KDD) или пользовательский процесс вашей организации, вы можете продолжить использование TDSP на основе задач.

Этот жизненный цикл предназначен для проектов обработки и анализа данных, которые входят в состав интеллектуальных приложений. Такие приложения развертывают модели машинного обучения или искусственного интеллекта для прогнозной аналитики. Этот процесс будет полезен при работе с исследовательскими проектами обработки и анализа данных, а также проектами на основе ситуативной аналитики. Однако для этих проектов некоторые шаги, описанные здесь, могут не понадобиться.

Пять этапов жизненного цикла

Жизненный цикл TDSP включает пять основных этапов, которые выполняются циклически. Эти этапы включают:

Визуальное представление жизненного цикла процесса обработки и анализа данных группы:

Жизненный цикл данных что это. Смотреть фото Жизненный цикл данных что это. Смотреть картинку Жизненный цикл данных что это. Картинка про Жизненный цикл данных что это. Фото Жизненный цикл данных что это

Жизненный цикл TDSP моделируется как циклическая последовательность этапов. По сути, это руководство по выполнению задач, необходимых для работы с прогнозными моделями. Модели прогнозирования развертываются в рабочей среде, которую планируется использовать для разработки интеллектуальных приложений. Жизненный цикл этого процесса помогает развивать проект по анализу и обработке данных до четко определенной конечной цели, предусматривающей его применение. Обработка и анализ данных — это исследовательская деятельность. Но если вы сможете доходчиво объяснить все ключевые моменты сотрудникам и клиентам с помощью хорошо определенного набора артефактов и стандартизированных шаблонов, вы сможете избежать недопонимания и существенно повысить вероятность успешной реализации сложного аналитического проекта.

Для каждого этапа предоставляется следующая информация.

Дальнейшие действия

Кроме того, предоставляются полные пошаговые руководства, которые демонстрируют все этапы процесса для конкретных сценариев. Статья Пошаговые руководства по процессу обработки и анализа данных группы содержит список сценариев, ссылки и описания эскизов. В пошаговых руководствах показано, как объединить облачные, локальные инструменты и службы в единый рабочий процесс или конвейер, чтобы создать интеллектуальное приложение.

Примеры выполнения шагов в процессе обработки и анализа данных группы, который использует среду «Студия машинного обучения Azure», см. в статье Командный процесс обработки и анализа данных с использованием службы «Машинное обучение Azure».

Источник

Аналитика больших данных — жизненный цикл данных

Методология CRISP-DM

Посмотрите на следующую иллюстрацию. Он показывает основные этапы цикла, описанные методологией CRISP-DM, и их взаимосвязь.

Жизненный цикл данных что это. Смотреть фото Жизненный цикл данных что это. Смотреть картинку Жизненный цикл данных что это. Картинка про Жизненный цикл данных что это. Фото Жизненный цикл данных что это

CRISP-DM был задуман в 1996 году, а в следующем году он был реализован как проект Европейского Союза в рамках инициативы финансирования ESPRIT. Проект возглавляли пять компаний: SPSS, Teradata, Daimler AG, NCR Corporation и OHRA (страховая компания). Проект был наконец включен в SPSS. Методология чрезвычайно детально ориентирована на то, как должен быть определен проект интеллектуального анализа данных.

Давайте теперь узнаем немного больше о каждом из этапов жизненного цикла CRISP-DM —

Понимание бизнеса — на этом начальном этапе основное внимание уделяется пониманию целей и требований проекта с точки зрения бизнеса, а затем преобразованию этих знаний в определение проблемы интеллектуального анализа данных. Предварительный план предназначен для достижения целей. Можно использовать модель принятия решений, особенно модель, построенную с использованием модели принятия решений и стандарта обозначений.

Понимание данных. Фаза понимания данных начинается с первоначального сбора данных и продолжается действиями, чтобы ознакомиться с данными, выявить проблемы с качеством данных, обнаружить первое понимание данных или обнаружить интересные подмножества, чтобы сформировать гипотезы для скрытого Информация.

Подготовка данных. Этап подготовки данных охватывает все действия по построению окончательного набора данных (данных, которые будут вводиться в инструмент (ы) моделирования) из исходных необработанных данных. Задачи подготовки данных, вероятно, будут выполняться несколько раз, а не в каком-либо предписанном порядке. Задачи включают выбор таблиц, записей и атрибутов, а также преобразование и очистку данных для инструментов моделирования.

Моделирование — на этом этапе выбираются и применяются различные методы моделирования, а их параметры калибруются до оптимальных значений. Как правило, существует несколько методов для одного и того же типа проблемы интеллектуального анализа данных. Некоторые методы предъявляют особые требования к форме данных. Поэтому часто требуется вернуться к этапу подготовки данных.

Оценка — на этом этапе проекта вы создали модель (или модели), которая, по-видимому, имеет высокое качество с точки зрения анализа данных. Прежде чем приступить к окончательному развертыванию модели, важно тщательно оценить модель и рассмотреть шаги, выполненные для построения модели, чтобы убедиться, что она правильно достигает бизнес-целей.

Основная цель — определить, существует ли какая-то важная бизнес-проблема, которая не была в достаточной мере рассмотрена. В конце этого этапа должно быть принято решение об использовании результатов интеллектуального анализа данных.

Развертывание — создание модели, как правило, не является концом проекта. Даже если целью модели является повышение знаний о данных, полученные знания необходимо будет организовать и представить так, чтобы это было полезно для клиента.

В зависимости от требований фаза развертывания может быть такой же простой, как создание отчета, или такой сложной, как реализация повторяющейся оценки данных (например, распределение сегментов) или процесса интеллектуального анализа данных.

Понимание бизнеса — на этом начальном этапе основное внимание уделяется пониманию целей и требований проекта с точки зрения бизнеса, а затем преобразованию этих знаний в определение проблемы интеллектуального анализа данных. Предварительный план предназначен для достижения целей. Можно использовать модель принятия решений, особенно модель, построенную с использованием модели принятия решений и стандарта обозначений.

Понимание данных. Фаза понимания данных начинается с первоначального сбора данных и продолжается действиями, чтобы ознакомиться с данными, выявить проблемы с качеством данных, обнаружить первое понимание данных или обнаружить интересные подмножества, чтобы сформировать гипотезы для скрытого Информация.

Подготовка данных. Этап подготовки данных охватывает все действия по построению окончательного набора данных (данных, которые будут вводиться в инструмент (ы) моделирования) из исходных необработанных данных. Задачи подготовки данных, вероятно, будут выполняться несколько раз, а не в каком-либо предписанном порядке. Задачи включают выбор таблиц, записей и атрибутов, а также преобразование и очистку данных для инструментов моделирования.

Моделирование — на этом этапе выбираются и применяются различные методы моделирования, а их параметры калибруются до оптимальных значений. Как правило, существует несколько методов для одного и того же типа проблемы интеллектуального анализа данных. Некоторые методы предъявляют особые требования к форме данных. Поэтому часто требуется вернуться к этапу подготовки данных.

Оценка — на этом этапе проекта вы создали модель (или модели), которая, по-видимому, имеет высокое качество с точки зрения анализа данных. Прежде чем приступить к окончательному развертыванию модели, важно тщательно оценить модель и рассмотреть шаги, выполненные для построения модели, чтобы убедиться, что она правильно достигает бизнес-целей.

Основная цель — определить, существует ли какая-то важная бизнес-проблема, которая не была в достаточной мере рассмотрена. В конце этого этапа должно быть принято решение об использовании результатов интеллектуального анализа данных.

Развертывание — создание модели, как правило, не является концом проекта. Даже если целью модели является повышение знаний о данных, полученные знания необходимо будет организовать и представить так, чтобы это было полезно для клиента.

В зависимости от требований фаза развертывания может быть такой же простой, как создание отчета, или такой сложной, как реализация повторяющейся оценки данных (например, распределение сегментов) или процесса интеллектуального анализа данных.

Во многих случаях именно заказчик, а не аналитик данных, будет выполнять этапы развертывания. Даже если аналитик развертывает модель, для клиента важно заранее понять действия, которые необходимо будет выполнить для фактического использования созданных моделей.

Методология SEMMA

SEMMA — это еще одна методология, разработанная SAS для моделирования интеллектуального анализа данных. Он обозначает S достаточно, E xplore, M odify, M odel и A sses. Вот краткое описание его этапов —

Выборка — процесс начинается с выборки данных, например, с выбора набора данных для моделирования. Набор данных должен быть достаточно большим, чтобы содержать достаточную информацию для извлечения, но достаточно маленьким, чтобы его можно было эффективно использовать. Этот этап также касается разделения данных.

Исследовать — Эта фаза охватывает понимание данных путем обнаружения ожидаемых и непредвиденных связей между переменными, а также отклонений с помощью визуализации данных.

Modify — фаза Modify содержит методы для выбора, создания и преобразования переменных при подготовке к моделированию данных.

Модель. На этапе модели основное внимание уделяется применению различных методов моделирования (интеллектуального анализа данных) к подготовленным переменным с целью создания моделей, которые могут обеспечить желаемый результат.

Оценка — Оценка результатов моделирования показывает надежность и полезность созданных моделей.

Выборка — процесс начинается с выборки данных, например, с выбора набора данных для моделирования. Набор данных должен быть достаточно большим, чтобы содержать достаточную информацию для извлечения, но достаточно маленьким, чтобы его можно было эффективно использовать. Этот этап также касается разделения данных.

Источник

Жизненный цикл Больших данных (Big Data)

Жизненный цикл данных что это. Смотреть фото Жизненный цикл данных что это. Смотреть картинку Жизненный цикл данных что это. Картинка про Жизненный цикл данных что это. Фото Жизненный цикл данных что это

Ниже показано несколько реальных сценариев, которые дают нам гораздо луч­шее понимание четырех V и определения больших данных:

Жизненный цикл данных что это. Смотреть фото Жизненный цикл данных что это. Смотреть картинку Жизненный цикл данных что это. Картинка про Жизненный цикл данных что это. Фото Жизненный цикл данных что это

Объем

Ожидается, что объем данных, полученных по всему миру к 2008 году, будет к 2020 году генерироваться всего за минуту.

Разнообразие

Разнообразие относится к нескольким типам и характеру данных, таких как пото­ки нажатий на веб-страницах, текст, датчики, изображения, голос, видео, файлы журналов регистрации событий, беседы в социальных сетях и многое другое. Это помогает людям, которые тщательно их изучают, эффективно их использовать для углубленного понимания.

70% данных в мире не структурированы, в частности текст, изображения, голос и т. д. Однако ранее структурированные данные были популярны из-за их доступ­ности для анализа, поскольку они могут храниться в файлах, базах данных или поддаются традиционным процедурам хранения данных.

Скорость

Скорость подразумевает скорость генерирования, усвоения и обработки данных для удовлетворения потребностей и решения задач, которые возникают на пути эволюции и расширения.

Каналы связи нового поколения, такие как социальные сети, электронные письма и мобильные телефоны, прибавили скорости данным в больших данных. Процесс ежедневного отслеживания около 1 Тб информации о торговых событи­ях для выявления мошенничества чувствителен ко времени, когда иногда каж­дая минута имеет важное значение для предотвращения мошенничества. Просто представьте разговоры в социальных сетях, которые в считанные секунды могут становиться вирусными; на таких платформах анализ помогает нам выявлять тенденции.

Правдивость

Когда мы говорим о больших данных, качество и точность остаются главной задачей. Разве не ради этого все крутится? Количество Twitter-каналов является подходящим вариантом применения, где изобилуют хештеги, опечатки, неофи­циальный текст и аббревиатуры; вместе с тем мы ежедневно сталкиваемся со сце­нариями, где большие данные отлично справляются со своей работой в серверной части и позволяют нам работать с таким типом данных.

Фазы жизненного цикла больших данных

Эффективное использование больших данных с экспоненциальным ростом в ти­пах и объемах данных имеет огромный потенциал для преобразования эконо­мической, деловой и маркетинговой информации и наращивания клиентской базы. Большие данные стали ключевой мантрой успеха для текущих конкурент­ных рынков, для существующих компаний и фактором, меняющим правила игры в конкурентной борьбе для новых компаний. Все это может оказаться истиной, только если задействуется ЦЕННОСТЬ ДАННЫХ. Давайте посмотрим на следую­щий ниже рисунок:

Жизненный цикл данных что это. Смотреть фото Жизненный цикл данных что это. Смотреть картинку Жизненный цикл данных что это. Картинка про Жизненный цикл данных что это. Фото Жизненный цикл данных что это

Как показано на рисунке, жизненный цикл больших данных можно разделить на четыре этапа. Рассмотрим их подробнее.

Сбор

Данные можно передать в платформу больших данных, такую как HDFS (Hadoop Distributed File System), и их там консолидировать. После того как данные об­работаны с помощью таких инструментов, как Apache Spark, их можно загрузить обратно в базу данных MySQL, которая поможет заполнить соответствующими данными, чтобы показать, из каких составляющих MySQL состоит.

С ростом объемов данных и увеличением скорости теперь Oracle имеет интер­фейс NoSQL, предназначенный для подсистем хранения данных InnoDB и MySQL Cluster. Подсистема MySQL Cluster дополнительно полностью обходит слой SQL. Без синтаксического анализа и оптимизации SQL данные в формате ключ- значение могут вставляться прямо в таблицы MySQL в девять раз быстрее.

Хранение

В этом разделе мы обсудим хранение данных, собранных из различных источни­ков. Рассмотрим пример автоматических обзоров организаций для анализа мне­ний, где каждый обзор собирает данные с разных сайтов и по каждому отобра­жаются уникальные данные.

Традиционно данные обрабатывались с помощью процедуры ETL (извлечение, трансформация и загрузка), которая использовалась для сбора данных из различ­ных источников, их изменения в соответствии с требованиями и загрузки в хра­нилище для дальнейшей обработки или отображения. Для подобных сценариев очень часто использовались такие инструменты, как электронные таблицы, реля­ционные СУБД, инструменты бизнес-аналитики и т. д., а иногда и вручную.

Также может возникнуть ситуация, когда нам нужно собирать и демонстриро­вать данные в реальном времени, которая практически не требует хранения дан­ных для будущих целей и позволяет выполнять аналитическую обработку в реаль­ном времени для получения результатов на основе запросов.

Анализ

В этом разделе мы обсудим, как эти различные типы данных анализируются на основе универсального вопроса, который начинается со слов «что, если. ». Эво­люция организаций вместе с данными также повлияла на новые стандарты мета­данных, организующие их с целью первичного обнаружения и переработки для структурных подходов, вызревающих на основе ценности создаваемых данных.

Большинство зрелых организаций надежно обеспечивают доступность, превос­ходство и ценность для бизнес-подразделений с постоянным автоматизированным процессом структурирования метаданных и результатов, которые будут обрабаты­ваться для анализа. В зрелой организации, управляемой данными, механизм ана­лиза обычно работает с несколькими источниками данных и типами данных, ко­торые также включают в себя данные, поступающие в режиме реального времени.

В фазе анализа обрабатываются сырые данные, для которых СУБД MySQL имеет задания MapReduce в Hadoop, которые проводят анализ и выводят результат. Ког­да данные MySQL расположены в HDFS, к ним в целях дальнейшего анализа может обращаться остальная часть экосистемы инструментов, связанных с платформой больших данных.

Управление

Невозможно извлечь ценность данных для бизнеса без сформулированной по­литики управления данными на практике. В отсутствии продуманной политики управления данными предприятия могут столкнуться с неправильной интерпре­тацией информации, что в конечном итоге может привести к непредсказуемому ущербу для бизнеса. С помощью управления большими данными организация может достигнуть последовательной, точной и действенной осведомленности в данных.

Управление данными осуществляется с целью соблюдения законодательных требований, конфиденциальности, нормативно-юридических актов и всего, что является обязательным в соответствии с требованиями бизнеса. В целях управ­ления данными непрерывный мониторинг, изучение, пересмотр и оптимизация качества процесса также должны учитывать потребности в безопасности данных. До сих пор, когда речь шла о больших данных, управление данными принималось с легкостью; однако, с ростом объемов данных и их повсеместным использованием управление данными стало привлекать к себе все больше внимания. Оно постепенно становится обязательным фактором для любого проекта в области больших данных.

Поскольку у нас есть хорошее понимание жизненного цикла больших данных, давайте теперь подробнее рассмотрим основы MySQL, ее преимущества и не­сколько превосходных функциональных средств этой реляционной СУБД.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *