Дата стюарт что это

Роли управления данными распространены, когда организации пытаются точно и согласованно обмениваться данными между компьютерными системами и повторно использовать связанные с данными ресурсы. Управление мастер-данными часто ссылается на необходимость управления данными для его успешной реализации. Управление данными должно иметь четкую цель, соответствовать назначению или пригодности.

СОДЕРЖАНИЕ

Обязанности распорядителя данных

Управляющий данными гарантирует, что каждый назначенный элемент данных:

Обязанности распорядителей данных в разных организациях и учреждениях различаются. Например, в Делфтском технологическом университете распорядители данных считаются первым контактным лицом по любым вопросам, связанным с данными исследований. У них также есть предметная база, позволяющая им легко связываться с исследователями и контекстуализировать проблемы управления данными с учетом дисциплинарной практики.

Типы распорядителей данных

В зависимости от набора обязанностей по управлению данными, возложенных на человека, существует 4 типа (или измерения ответственности) управляющих данными, которые обычно встречаются в организации:

Преимущества управления данными

Систематическое управление данными может способствовать:

Присвоение каждого элемента данных человеку иногда кажется несущественным процессом. Но многие группы обнаружили, что пользователи больше доверяют и используют системы, где они могут связаться с человеком с вопросами по каждому элементу данных.

Примеры

[1] ЕР реестр метаданных дает пример стратегического управления данными. Обратите внимание, что каждый элемент данных в нем имеет «POC» (точку контакта).

Приложения для управления данными

Первоначальный толчок к формированию этой новой категории пакетного программного обеспечения исходил от оперативных сценариев использования, то есть использования бизнес-данных в транзакционных и операционных бизнес-приложениях и между ними. Именно здесь в организациях осуществляется большая часть усилий по управлению основными данными. Однако в настоящее время интерес к новому озеру данных растет быстрее, поскольку он может использоваться в более аналитических целях.

Некоторые поставщики средств управления метаданными, такие как Alation, начали подчеркивать важность Data Stewards для сотрудников, заинтересованных в использовании данных для принятия бизнес-решений.

Источник

Дата-инженеры в бизнесе: кто они и чем занимаются?

Данные — один из активов организации. Поэтому вполне вероятно, что перед вашей командой в какой-то момент могут возникнуть задачи, которые можно будет решить, используя эти данные разными способами, начиная с простых исследований и вплоть до применения алгоритмов машинного обучения.

И хоть построение крутой модели — неотъемлемо важная часть, но все же это не залог успеха в решении подобных задач. Качество модели в большой степени зависит от качества данных, которые собираются для нее. И если Data Science применяется не ради спортивного интереса, а для удовлетворения реальных потребностей компании, то на это качество можно повлиять на этапе сбора и обогащения данных. И за это отвечает скорее не дата-сайентист, а другой специалист — дата-инженер.

В этой статье я хочу рассказать о роли дата-инженера в проектах, связанных с построением моделей машинного обучения, о зоне его ответственности и влиянии на результат. Разбираемся на примере Яндекс.Денег.

Дата стюарт что это. Смотреть фото Дата стюарт что это. Смотреть картинку Дата стюарт что это. Картинка про Дата стюарт что это. Фото Дата стюарт что это

Какие роли есть в Data Science-проекте?

К сожалению, не для всех названий ролей есть аналоги в русском языке. Если у вас в компании есть устоявшееся русское название, например, для Data Ingest, то поделитесь им в комментариях.

Например, можно выделить следующие роли:

Что такое Data Science-проект?

Это ситуация, когда мы пытаемся решить какую-то задачу при помощи данных. То есть во-первых, эта задача должна быть сформулирована. Например, один из наших проектов начался с того, что нам нужно было распознавать аварии в приеме платежей (далее распознавание аварий будет упоминаться как исходная задача).

Во-вторых, должен быть набор конкретных данных, датасет, на котором мы будем пытаться ее решать. Например, есть список операций. Из него можно построить график количества операций по каким-нибудь временным периодам, например, часам:

Дата стюарт что это. Смотреть фото Дата стюарт что это. Смотреть картинку Дата стюарт что это. Картинка про Дата стюарт что это. Фото Дата стюарт что это

Сам график с количеством не требует дата-сайенса, но уже требует дата-инженерии.

Не будем забывать, что помимо простых показателей, таких как количество, показатели, которые нас интересуют, могут быть достаточно сложными в получении: например, количество уникальных пользователей или факт наличия аварии в магазине-партнере (который достоверно определять силами человеческого мониторинга весьма дорого).

При этом данных с самого начала может быть много либо их в какой-то момент внезапно становится много, а в реальной жизни — они еще и продолжают непрерывно копиться даже после того, как мы сформировали для анализа какой-то датасет.

Как, наверное, для любой проблемы сначала стоит посмотреть, есть ли на рынке готовые решения. И во многих случаях окажется, что они есть. Например, существуют системы, которые умеют детектить простои тем или иным способом. Однако та же Moira не справлялась полностью с нашими проблемами (из коробки она ориентируется на статические правила — которыми задать наши условия достаточно сложно). Поэтому мы решили писать классификатор самостоятельно.

И дальше в статье рассматриваются те случаи, когда нет готового решения, которое полностью бы удовлетворяло возникшим потребностям, или если даже оно есть, то мы не знаем о нем или оно нам недоступно.

В этот момент из инженерной области, где что-то разрабатываем, мы переходим в RnD-область, где пытаемся изобрести алгоритм или механизм, который будет работать на наших данных.

Порядок действий в DS-проекте

Давайте посмотрим, как это выглядит в реальной жизни. Дата-сайентический проект состоит из следующих этапов:

Дата стюарт что это. Смотреть фото Дата стюарт что это. Смотреть картинку Дата стюарт что это. Картинка про Дата стюарт что это. Фото Дата стюарт что это
В проектах, которыми мы занимались, один такой круг занимал по времени около 1,5-2 недель.

Дата-сайентист точно участвует на этапе построения модели и при оценке результата. Все остальные этапы чаще ложатся на плечи дата-инженера.

Теперь рассмотрим этот процесс подробнее.

Сбор датасета

Как мы сказали, без набора данных бессмысленно начинать любой Data Science. Давайте посмотрим, из каких данных получился график с количеством платежей.

В нашей компании применяется микросервисная архитектура, и в ней для дата-инженера наиболее важный момент, что нужные данные еще нигде не собраны воедино. Каждый микросервис льет свои события в брокер, в нашем случае Kafka, ETL оттуда их забирает, кладет в DWH, откуда их забирают модели.

Каждый микросервис знает только свой кусочек: один компонент знает про авторизацию, другой — про реквизиты и так далее. Задача дата-инженера — эти данные собрать в одном месте и объединить их друг с другом, чтобы получился необходимый датасет.

В реальной жизни микросервисы появились неспроста: такой атомарной операции, как платеж, не существует. У нас даже есть такое внутреннее понятие, как процесс платежа — последовательность операций для его выполнения. Например, в эту последовательность могут входить следующие операции:

Действия могут быть как явно существующими в этом процессе, так и суррогатными (расчетными).

И в нашем примере мы решили, что нам будет достаточно знать два следующих шага:

На этом этапе собранные данные уже могут представлять ценность не только для главной задачи. В нашем примере уже здесь без применения ML можно брать количество процессов, прошедших каждый из этих шагов, поделить друг на друга и рассчитывать таким образом success rate.

Но если вернуться к главной задаче, то после того, как мы решили выделить эти два события, следует научиться извлекать данные из этих событий и куда-то их складывать.

На этом этапе важно помнить, что большинство моделей классификаций на входе принимает матрицу признаков (набор m чисел и n столбцов). А события, которые мы получаем, например, из Kafka, — это текст, а не числа, и из этого текста матрицу не составишь. Поэтому изначально текстовые записи нужно преобразовать в числовые значения.

Составление корректного датасета состоит из следующих этапов:

Например, в поле «дата» появился платеж 1970 года, и такую запись, скорее всего, не следует учитывать (если мы в принципе хотим использовать время как признак).

Это можно делать разными способами. Например, полностью исключить строки с неправильными значениями. Это хорошо работает, но могут потеряться остальные данные из этих строк, хотя они могут быть вполне полезными. Или, другой вариант — сделать что-то с неправильными значениями, не трогая остальные поля в этой строчке. Например, заменить на среднее или мат. ожидание по этому полю или вовсе обнулить. В каждом случае принять решение должен человек (дата-сайентист или дата-инженер).

Следующий шаг — разметка. Это тот момент, когда мы помечаем аварии как «аварии». Очень часто это самый дорогостоящий этап в сборе датасета.

Дата стюарт что это. Смотреть фото Дата стюарт что это. Смотреть картинку Дата стюарт что это. Картинка про Дата стюарт что это. Фото Дата стюарт что это
Предполагается, что изначально мы знаем откуда-нибудь про аварии. Например, операции идут, затем их количество резко падает (как на картинке выше), а потом они восстанавливаются снова, и кто-то нам говорит: «Вот там и была авария». А дальше нам хочется автоматически находить идентичные кейсы.

Интереснее ситуация, когда операции прекращаются не полностью, а только частично (количество операций не падает до нуля). В этом суть детектинга — отслеживать изменение структуры исследуемых данных, а не их полное отсутствие.

Возможные неточности разметки приводят к тому, что классификатор будет ошибаться. Почему? Например, у нас есть две аварии, а размечена только одна из них. Соответственно, вторую аварию классификатор будет воспринимать как нормальное поведение и не рассматривать как аварию.

В нашем случае мы специально собираем вручную историю аварий, которую потом мы используем в разметке.

В итоге после серий экспериментов одним из решений задачи поиска простоев получился следующий алгоритм:

И не стоит забывать про последний пункт — актуализацию данных. Особенно если проект длинный, готовится несколько недель или месяцев, датасет может устареть. И важно, когда весь пайплайн готов, обновить информацию — выгрузить данные за новый период. Именно в этот момент становится важна роль дата-инженера как автоматизатора, чтобы все предыдущие шаги можно было дешево повторить на новых данных.

Только после этого дата-инженер передает эстафету (вместе с датасетом) дата-сайентисту.

А дальше.

Что же делает дата-сайентист?

Предполагаем, что проблема у нас сформулирована, дальше дата-сайентисту ее нужно решить.

В этой статье я не буду детально затрагивать вопрос выбора модели. Но для тех, кто только начинает работать с ML, отмечу, что есть множество подходов к выбору модели.

Если путем настройки гиперпараметров дата-сайентисту не удалось добиться хорошего качества работы выбранной модели, то нужно выбрать другую модель либо обогатить датасет новыми фичами — значит, требуется пойти на следующий круг и вернуться на этап расчета фич или еще раньше — на этап сбора данных. Угадайте, кто это будет делать?

Предположим, что модель выбрана, отскорена, дата-инженеры оценивают результат и получают обратную связь. Заканчивается ли на этом их работа? Конечно, нет. Приведем примеры.

Сначала немного лирического отступления. Когда я учился в школе, учительница любила спрашивать:
— А если все спрыгнут с крыши, ты тоже спрыгнешь?
Спустя какое-то время я узнал, что для этой фразы есть стандартный ответ:
— Ну… вам же никто не мешает говорить фразу, которую все говорят.

Однако после изобретения машинного обучения ответ может стать более предсказуемым:

— А если все спрыгнут с крыши, ты тоже спрыгнешь?
[изобретено машинное обучение]
— Да!

Такая проблема возникает, когда модель ловит не ту зависимость, которая существует в реальной жизни, а ту, которая характерна только для собранных данных.

Причина, по которой модель ловит не те зависимости, которые есть в реальной жизни, могут быть связаны с переобучением либо со смещением в анализируемых данных.
И если с переобучением дата-сайентист может побороться самостоятельно, то задача дата-инженера в том, чтобы найти и подготовить данные без смещения.

Но кроме смещения и переобучения могут возникнуть и другие проблемы.

Например, когда после сбора данных мы пытаемся на них обучиться, а потом выясняется, что один из магазинов (где проходят платежи), выглядит вот так:

Дата стюарт что это. Смотреть фото Дата стюарт что это. Смотреть картинку Дата стюарт что это. Картинка про Дата стюарт что это. Фото Дата стюарт что это

Вот такие у него операции, и все другие наши размышления про падения количества операций, как признака аварии, просто бессмысленны, так как в данном примере есть периоды, где платежей нет совсем. И это нормальный период, тут нет ничего страшного. Что это для нас означает? Это как раз и есть тот случай, когда указанный выше алгоритм не работает.

На практике это частенько означает, что следует перейти к другой проблеме — не той, что мы изначально пытались решать. Например, что-то сделать до того момента, как мы начинаем искать аварии. В рассматриваемой задаче пришлось сначала привести кластеризацию магазинов по профилю: часто платящие, редко платящие, редко платящие со специфическим профилем и другие, но это уже другая история. Но важно, что это, в первую очередь, тоже задача для дата-инженера.

В итоге

Основной вывод, который можно сделать из рассказанного выше, что в реальных ML-проектах дата-инженер играет одну из важных ролей, а возможностей по решению бизнес-задач у него зачастую даже больше, чем у дата-сайентиста.

Если сейчас вы разработчик и хотите развиваться в направлении машинного обучения, то не сосредотачивайтесь исключительно на дата-сайенсе и обратите внимание на дата-инженерию.

Источник

Зачем в госорганах вводят новую должность дата-стюарда, рассказали в Минцифры

Должность планируют ввести во всех центральных государственных и местных исполнительных органах.

В Министерстве цифрового развития, инноваций и аэрокосмической промышленности рассказали Informburo.kz, зачем предлагают ввести новую должность «дата-стюард» и какие обязанности будут закреплены за такими сотрудниками.

Кто такой дата-стюард и каковы его функциональные обязанности. Дата-стюард – это специалист, который определяет требования и решает инциденты с качеством данных в рамках своего подразделения, а также осуществляет надзор или управление данными внутри организации.

Зачем понадобилась новая должность. Как отметили в министерстве, государственные органы накопили огромные массивы данных. Однако в важных для экономики Казахстана отраслях пока не наладили непрерывный учёт актуальной информации. Поэтому возникают риски разрозненности или отсутствия необходимых данных для принятия госорганами оперативных и стратегических решений.

«Также низкое качество информации в базах данных государственных органов ограничивает эффект от цифровизации», – отметили в ведомстве.

Какие требования будут предъявляться к кандидатам на эту должность. Чтобы устроиться дата-стюардом, необходимо наличие технического образования. Также кандидат должен иметь навыки разработки технической документации. Важен и опыт работы в области информационных технологий на текущей или предыдущих позициях.

В каких ведомствах предлагают ввести должность дата-стюарда. «Должность дата стюарда планируется ввести во всех центральных государственных органах и местных исполнительных органах, а также в государственных органах, подотчетных президенту Республики Казахстан в пределах лимита штатной численности.

Предложение о введении новой должности дата-стюарда опубликовали на портале «Открытые НПА». Оно находится на обсуждении до 4 октября.

Источник

data steward

1 data steward

2 data shop steward

См. также в других словарях:

Data Steward — ist eine bislang vor allem in den USA verwendete Berufsbezeichnung für Personen oder Teams, deren Aufgabe darin besteht, für die Konsistenz von Metadaten Verzeichnissen Sorge zu tragen. Aktuelle Bedeutung erhält dieses neue Berufsbild… … Deutsch Wikipedia

Data steward — In metadata, a data steward is a person that is responsible for maintaining a data element in a metadata registry. A data steward may share some responsibilities with a data custodian. Data stewardship roles are common when organizations are… … Wikipedia

Data Owner — selten auch deutsch Dateneigner – ist ein Begriff aus dem Informationsmanagement. Entsprechend zum Process Owner, der für einen bestimmten Prozess zuständig ist, ist der Data Owner im Rahmen der Governance und Qualität von Daten für einen… … Deutsch Wikipedia

Data management — comprises all the disciplines related to managing data as a valuable resource. Contents 1 Overview 2 Topics in Data Management 3 Body Of Knowledge 4 Usage … Wikipedia

Data custodian — In Data Governance groups, responsibilities for data management are increasingly divided between the business process owners and information technology (IT) departments. Two functional titles commonly used for these roles are Data Steward and… … Wikipedia

Steward — Der Begriff Steward kommt aus dem Englischen und bezeichnet: einen Verwalter eines Anwesens, Haushofmeister, Majordomus, Hausmeier einen Aufseher, Festordner bei Veranstaltungen, siehe Sicherheitsdienst einen Flugbegleiter, eine… … Deutsch Wikipedia

Data architect — Architecte de données Un architecte de données est une personne qui a la responsabilité de s assurer que les objectifs stratégiques d une organisation sont optimisés à travers l utilisation de standards de données d entreprise. Cela implique… … Wikipédia en Français

steward — ste·ward s.m.inv. ES ingl. <> 1a. persona di sesso maschile impiegata a bordo di aerei civili per fornire assistenza ai passeggeri Sinonimi: assistente di volo. 1b. estens., chi svolge il medesimo incarico a bordo di navi di linea,… … Dizionario italiano

Master data management — In computing, master data management (MDM) comprises a set of processes and tools that consistently defines and manages the non transactional data entities of an organization (which may include reference data). MDM has the objective of providing… … Wikipedia

Architecte De Données — Un architecte de données est une personne qui a la responsabilité de s assurer que les objectifs stratégiques d une organisation sont optimisés à travers l utilisation de standards de données d entreprise. Cela implique souvent la création et la… … Wikipédia en Français

Architecte de donnees — Architecte de données Un architecte de données est une personne qui a la responsabilité de s assurer que les objectifs stratégiques d une organisation sont optimisés à travers l utilisation de standards de données d entreprise. Cela implique… … Wikipédia en Français

Источник

What is a Data Steward?

A Data Steward refers to the lead role in a data governance project. Data Stewards take ownership of the data and work with the business to define the programme’s objectives.

The role of a Data Steward is specifically tasked with maintaining data control in data governance and master data management initiatives on a day-to-day basis. Data Stewardship is required for data implementation and data management to succeed. An example of what they may do to achieve this is drafting the data quality rules which their data is measured against.

Why are Data Stewards important?

Where a Data Owner will take the overall ownership of a dataset, they will unlikely be involved with the specific activities involved with keeping the data clean on a regular basis. A Data Steward will have the Data Owner’s visibility of the overall objectives of the data, but will also be heavily involved in the specifics of how to achieve it.

Data Stewardship is a key part of any data governance programme which needs the right combination of processes, technology and people in place to be effective.

What are the benefits of Data Stewardship?

The benefits of appointing a Data Steward can include:

Gartner says, «Organisations striving to improve data quality must consider appointing Data Stewards. The success of Data Stewardship requires organisations to move towards a culture that views data as a competitive asset rather than a necessary evil and define clear goals for data-quality improvement.»

How can you ensure quality in your Data Governance?

Aligning Data Quality and Data Governance

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *