Etl elt что это

ETL против ELT

Etl elt что это. Смотреть фото Etl elt что это. Смотреть картинку Etl elt что это. Картинка про Etl elt что это. Фото Etl elt что это

Разница между ETL и ELT

В этой теме мы собираемся узнать о ETL против ELT, но давайте сначала обсудим, что означает процесс E, T, L,

ETL: процесс ETL включает извлечение данных из классифицированных источников данных, а затем преобразование и привязывание данных подходящим способом, наконец, данные загружаются в системы хранилища данных. Этот метод целесообразен до тех пор, пока многие разнородные базы данных не будут вовлечены в среду хранилища данных здесь перемещение данных из одного места в другое должно происходить в любом случае, поэтому ETL является наилучшей практикой в ​​таких ситуациях для выполнения преобразований, поскольку передача данных в любом случае происходит здесь

ELT: Это немного другой процесс, здесь используется та же техника извлечения, затем данные загружаются непосредственно в целевые системы. На предыдущем этапе объективные системы отвечают за применение преобразований к загруженным данным. Основным недостатком здесь является то, что обычно требуется больше времени для получения данных в хранилище данных, и, следовательно, с помощью промежуточных таблиц добавляется дополнительный шаг в процессе, который требует больше дискового пространства.

ELT играет свою роль в следующих случаях,

Преимущество ELT заключается в уменьшении выдачи, происходящей в источнике, ввиду того, что преобразование не выполняется, это очень важно учитывать, если источником является система PROD. Основным недостатком здесь является то, что обычно требуется больше времени для получения данных в хранилище данных, и, следовательно, с помощью промежуточных таблиц добавляется дополнительный шаг в процессе, который требует больше дискового пространства.

Сравнение лицом к лицу между ETL и ELT (Инфографика)

Ниже приведены 7 основных различий между ETL и ELT. Etl elt что это. Смотреть фото Etl elt что это. Смотреть картинку Etl elt что это. Картинка про Etl elt что это. Фото Etl elt что это

Ключевые различия между ETL и ELT

Ниже приведены основные ключевые различия между ETL и ELT:

Сравнительная таблица между ETL и ELT

Давайте обсудим топ-7 различий между ETL и ELT

Основа сравнения ETL против ELTETLELT
использованиеПодразумевает сложные преобразования включает в себя ETLELT вступает в игру, когда задействованы огромные объемы данных
преобразованиеПреобразования выполняются в зоне подготовкиВсе преобразования в целевых системах
ВремяПоскольку этот процесс включает в себя загрузку данных сначала в системы ETL, а затем в соответствующую целевую систему, это тянет за сравнительно большее время.Здесь, поскольку данные непосредственно загружаются в целевые системы изначально, и все преобразования выполняются в целевых системах.
Участие DatalakeНет данных озера поддержкиНеструктурированные данные могут быть обработаны с озерами данных здесь.
техническое обслуживаниеОбслуживание здесь высоко, так как этот процесс включает в себя два разных этапаТехническое обслуживание сравнительно низкое
СтоимостьВыше в ценовом фактореСравнительно дешевле
вычисленияЛибо нам нужно переопределить существующий столбец, либо необходимо отправить данные на целевую платформу.Рассчитанный столбец можно легко добавить

Вывод

Каждая компания, соблюдающая требования к хранилищу данных, будет использовать ETL (Извлечение, Преобразование, Загрузка) или ELT (Извлечение, Загрузка, Преобразование) для передачи данных в хранилище данных, получаемых из разных источников. Исходя из отраслевых и технических потребностей, одна из вышеперечисленных процедур широко применяется.

Рекомендуемые статьи

Источник

Извлечение, преобразование и загрузка (ETL)

Распространенной проблемой, с которой сталкиваются организации, является сбор данных из нескольких источников в нескольких форматах и перемещение их в одно или несколько хранилищ данных. Тип хранилища данных в целевой и исходной средах может отличаться, также как и формат. Иногда данные необходимо форматировать или очистить до загрузки в конечное расположение.

За несколько лет для решения этих проблем было разработано много средств, служб и процессов. Независимо от используемого процесса, существует общая потребность в координации работы и преобразовании данных в конвейере. В следующих разделах описываются распространенные методы, используемые для выполнения этих задач.

Извлечение, преобразование и загрузка (ETL)

Извлечение, преобразование и загрузка (ETL) представляет собой конвейер данных, в рамках которого данные собираются из различных источников, преобразовываются в соответствии с бизнес-правилами и загружаются в целевое хранилище данных. Процесс преобразования в конвейере ETL выполняется в специальной подсистеме. Зачастую для временного хранения данных во время их преобразования и до загрузки в пункт назначения используются промежуточные таблицы.

Обычно в процессе преобразования данных применяются различные операции (например, фильтрация, сортировка, агрегирование, объединение, очистка, дедупликация и проверка данных).

Etl elt что это. Смотреть фото Etl elt что это. Смотреть картинку Etl elt что это. Картинка про Etl elt что это. Фото Etl elt что это

Часто три этапа ETL выполняются параллельно, чтобы сэкономить время. Например, при извлечении данных процесс преобразования может уже обрабатывать полученные данные и подготавливать их для загрузки, а процесс загрузки может начать обрабатывать подготовленные данные, не дожидаясь полного завершения извлечения.

Соответствующие службы Azure:

Извлечение, загрузка и преобразование (ELT)

Конвейер извлечения, загрузки и преобразования (ELT) отличается от ETL исключительно средой выполнения преобразования. В конвейере ELT преобразование происходит в целевом хранилище данных. В этом случае для преобразования данных вместо специальной подсистемы используются средства обработки целевого хранилища данных. Это упрощает архитектуру за счет удаления механизма преобразования из конвейера. Еще одним преимуществом этого подхода является то, что масштабирование целевого хранилища данных также улучшает производительность конвейера ELT. Тем не менее ELT работает надлежащим образом, только если целевая система имеет достаточную производительность для эффективного преобразования данных.

Etl elt что это. Смотреть фото Etl elt что это. Смотреть картинку Etl elt что это. Картинка про Etl elt что это. Фото Etl elt что это

Обычно конвейер ELT применяется для обработки больших объемов данных. К примеру, вы можете извлечь все исходные данные в неструктурированные файлы в масштабируемое хранилище (например, распределенную файловую систему Hadoop (HDFS) или Azure Data Lake Store). Затем для выполнения запроса исходных данных можно использовать такие технологии, как Spark, Hive или PolyBase. Ключевой особенностью ELT является то, что хранилище данных, используемое для выполнения преобразования, — это то же хранилище, в котором данные в конечном счете потребляются. Это хранилище данных считывает данные непосредственно из масштабируемого хранилища, вместо того чтобы загружать их в собственное защищаемое хранилище. Этот подход пропускает этап копирования (присутствующий в ETL), который может занимать много времени при обработке больших наборов данных.

Хранилище данных управляет только схемой данных и применяет ее при чтении. Например, кластер Hadoop, использующий Hive, описывает таблицу Hive, где источником данных является фактический путь к набору файлов в HDFS. В Azure синапсе Polybase может добиться того же результата, — создавая таблицу для данных, хранимых извне, в саму базу данных. Когда исходные данные загружены, данные, имеющиеся во внешних таблицах, можно обрабатывать, используя возможности хранилища данных. В сценариях с большими данными это означает, что хранилище данных должно поддерживать массовую параллельную обработку (MPP), когда данные разбиваются на более мелкие фрагменты, а обработка этих фрагментов распределяется сразу между несколькими компьютерами в параллельном режиме.

Последний этап конвейера ELT обычно заключается в преобразовании исходных данных в окончательный формат, более эффективный для тех типов запросов, которые необходимо поддерживать. Например, данные могут быть секционированы. Кроме того, ELT может использовать оптимизированные форматы хранения, такие как Parquet, которые хранят данные, ориентированные на строки, в один столбец и обеспечивают оптимизированное индексирование.

Соответствующие службы Azure:

Поток данных и поток управления

В контексте конвейеров данных поток управления обеспечивает обработку набора задач в правильном порядке. Для этого используется управление очередностью. Эти ограничения можно рассматривать как соединители на схеме рабочего процесса, показанной ниже. Каждая задача имеет результат (успешное завершение, сбой или завершение). Все последующие задачи начинают обработку данных, только когда предыдущая задача завершена с одним из этих результатов.

Потоки управления выполняют потоки данных в качестве задачи. В рамках задачи потока данных данные извлекаются из источника, преобразовываются и загружаются в хранилище данных. Выходные данные одной задачи потока данных могут быть входными данными для следующей задачи потока данных, а потоки данных могут выполняться параллельно. В отличие от потоков управления, вы не можете добавить ограничения между задачами в потоке данных. Однако вы можете добавить средство просмотра данных для наблюдения за данными по мере их обрабатывания каждой задачей.

Etl elt что это. Смотреть фото Etl elt что это. Смотреть картинку Etl elt что это. Картинка про Etl elt что это. Фото Etl elt что это

На приведенной выше схеме показано несколько задач в потоке управления, одна из которых является задачей потока данных. Одна из задач вложена в контейнер. Контейнеры можно использовать для обеспечения структуры задач, тем самым формируя единицу работы. Одним из примеров является повторение элементов в коллекции (например, файлы в папке или инструкции базы данных).

Соответствующие службы Azure:

Выбор технологий

Дальнейшие действия

На следующей схеме эталонной архитектуры представлены сквозные конвейеры ELT в Azure:

Источник

ETL и ELT: 5 основных отличий

Пять важнейших отличий ETL от ELT:

Разницу между ETL и ELT можно объяснить довольно легко, но для понимания общей картины, и потенциальных преимуществ ETL по сравнению с ELT, требуется более глубокое понимание того, как ETL работает с хранилищами данных и как ELT работает с озерами данных.

Обзор ETL и ELT

ETL и ELT необходимы в анализе о данных, потому что источники информации, независимо от того, используют ли они структурированную базу данных SQL или неструктурированную базу данных NoSQL, редко используют одинаковые или совместимые форматы. Следовательно, вам необходимо очистить, обогатить и преобразовать свои источники данных, прежде чем объединить их в анализируемое целое. Таким образом, ваша платформа бизнес-аналитики сможет анализировать данные для получения аналитических сведений.

Независимо от того, используете ли вы ETL или ELT, процесс преобразования/интеграции данных включает следующие три этапа:

Как мы уже установили, ETL и ELT выполняют те же операции, но в разном порядке. Возникает вопрос: следует ли преобразовывать данные до или после загрузки в хранилище? Чтобы ответить на этот вопрос, вам нужно понимать ETL и ELT.

Подробно о процессе ETL

Хранилища данных для онлайн-аналитической обработки (OLAP), облачные или локальные, должны работать с реляционными структурами данных на основе SQL. Следовательно, любые данные, которые вы загружаете в хранилище данных OLAP, должны преобразоваться в реляционный формат, прежде чем хранилище данных сможет их принять. В рамках этого процесса преобразования данных также может потребоваться сопоставление данных для объединения нескольких их источников на основе коррелирующей информации (чтобы ваша платформа бизнес-аналитики могла анализировать информацию как единое интегрированное устройство).

Вот почему хранилища данных требуют ETL. Потому что преобразования должны происходить до загрузки. Вот некоторые подробности, которые нужно понять об ETL:

Важнейшие преимущества ETL

Одно из крупнейших преимуществ ETL перед ELT связано с преструктурированной природой хранилища данных OLAP. После структурирования/преобразования данных ETL позволяет проводить ускоренный, более эффективный и стабильный анализ данных. А вот ELT не так идеален, когда задача требует быстрого анализа.

Еще одно существенное преимущество ETL перед ELT связано с соответствием. Часто компаниям, работа которых регулируется GDPR, HIPAA или CCPA, необходимо удалить, замаскировать или зашифровать определенные поля данных для защиты конфиденциальности своих клиентов. Сюда может входить преобразование электронных писем только в домен или удаление последней части IP-адреса. ETL обеспечивает более безопасный способ выполнения этих преобразований, поскольку он преобразует данные перед их помещением в хранилище данных.

А вот ELT требует, чтобы вы сначала загрузили конфиденциальные данные. Это приводит к тому, что эти данные будут отображаться в журналах, где системные администраторы могут получить к ним доступ. Кроме того, использование ELT для преобразования данных может непреднамеренно нарушить стандарты соответствия GDPR ЕС, если при загрузке в озеро данных, некоторые из них покидают территорию ЕС. В конечном итоге ETL снижает риск нарушения нормативных требований, поскольку несоответствующие данные никогда случайно не попадут в хранилище данных или отчеты за пределами ЕС.

Ну и наконец, ETL, как процесс интеграции/преобразования данных существует уже более двух десятилетий, а это означает, что есть множество проверенных временем инструментов и платформ ETL, которые помогут в извлечении, преобразовании и загрузке данных. Кроме того, вы сможете легко найти инженеров по обработке данных, обладающих навыками и опытом настройки конвейеров ETL.

Подробное описание процесса ELT

Что такое ELT?

ELT означает «Извлечь, загрузить и преобразовать». В этом процессе данные для основных преобразований используются через хранилище данных. Это означает, что нет необходимости в промежуточном размещении данных. Для всех типов данных, включая структурированные, неструктурированные, полуструктурированные и даже необработанные данные ELT использует облачные решения для их хранения.

Процесс ELT также работает рука об руку с озерами данных. «Озера данных» – это особые виды хранилищ данных, которые, в отличие от хранилищ OLAP, принимают любые структурированные или неструктурированные данные. Озера данных не требуют преобразования данных перед их загрузкой. Вы можете сразу загрузить в озеро данных любой тип необработанной информации, независимо от формата или его отсутствия.

Перед анализом данных с помощью платформы бизнес-аналитики все еще необходимо преобразование данных. Однако очистка, обогащение и преобразование данных происходят после загрузки данных в озеро данных. Вот некоторые подробности о работе ELT и озерах данных для общего понимания процесса:

Самые значительные преимущества ELT

Основное преимущество ELT перед ETL связано с гибкостью и простотой хранения новых неструктурированных данных. С помощью ELT вы можете хранить любой тип информации, даже если у вас нет времени или возможности сначала преобразовать и структурировать ее, обеспечивая немедленный доступ ко всей вашей информации, когда вы этого захотите. Кроме того, вам не нужно разрабатывать сложные процессы ETL перед загрузкой данных, что экономит время разработчиков и аналитиков данных при работе с новой информацией.

Вот еще несколько преимуществ ELT:

ПРЕИМУЩЕСТВО №1: Высокая скорость

Когда дело доходит до доступности данных, ELT – более быстрый вариант. ELT позволяет всем данным немедленно поступать в систему, и оттуда пользователи могут определять точные данные, которые им необходимы для преобразования и анализа.

ПРЕИМУЩЕСТВО №2: низкие эксплуатационные расходы

С ELT пользователям, как правило, не нужно иметь план обслуживания с высокой степенью сложности. Поскольку ELT является облачным, он использует автоматизированные решения вместо того, чтобы полагаться на пользователя, инициирующего обновления вручную.

ПРЕИМУЩЕСТВО №3: Более быстрая загрузка

Поскольку этап преобразования не происходит до тех пор, пока данные не поступят в хранилище, это сокращает время, необходимое для загрузки данных в их финальное место хранения. Нет необходимости ждать, пока данные очистятся или иным образом будут изменены, и им нужно только один раз войти в целевую систему.

Лучшие способы использования ELT

Как указано в этой статье, обсуждение преимуществ ETL и ELT все еще продолжается. Итак, при каких обстоятельствах вы могли бы рассмотреть возможность использования ELT вместо ETL? Вот некоторые из возможных случаев:

СЛУЧАЙ ИСПОЛЬЗОВАНИЯ №1:

Компания с огромным объемом данных. ELT лучше всего работает с огромными объемами данных, как структурированных, так и неструктурированных. Если целевая система – облачная, вы, вероятно, сможете быстрее обрабатывать эти огромные объемы данных с помощью решений ELT.

СЛУЧАЙ ИСПОЛЬЗОВАНИЯ №2:

Организация, располагающая ресурсами для необходимой вычислительной мощности. При использовании ETL большая часть обработки происходит на этапе, пока данные еще находятся в конвейере, до того, как они попали в ваше хранилище. ELT выполняет действие после того, как данные поступили в озеро данных. В зависимости от того, что нужно сделать с данными согласно вашим целям, у небольших компаний может не быть достаточной финансовой гибкости для разработки или изучения обширных технологий, необходимых для получения всех преимуществ озера данных.

СЛУЧАЙ ИСПОЛЬЗОВАНИЯ №3:

Компания, которой нужны все данные в одном месте как можно скорее. Когда преобразования происходят в конце процесса, ELT отдает приоритет скорости передачи почти всему остальному, а это означает, что все данные, хорошие, плохие и другие, попадают в озеро данных для последующего преобразования.

Сравнение ETL и ELT

Внедрение технологии и наличие инструментов и экспертов

ETL – это хорошо отлаженный процесс, который используется более 20 лет, и эксперты по ETL всегда под рукой.

ELT – это новая технология, поэтому может быть сложно найти экспертов, и разработать конвейер ELT тоже сложнее, по сравнению с конвейером ETL.

Доступность данных в системе

ETL преобразует и загружает только те данные, которые (по вашему мнению) будут необходимы при создании хранилища данных и процесса ETL. Следовательно, будет доступна только эта информация.

ELT может сразу загрузить все данные, а пользователи смогут позже определить, какие данные из них преобразовать и проанализировать.

Можно ли добавить вычисления?

Вычисления либо заменят существующие столбцы, либо вы можете добавить набор данных, чтобы передать результат вычислений в целевую систему данных.

ELT добавляет вычисляемые столбцы непосредственно в существующий набор данных.

Совместимы ли данные с озерами данных?

ETL не является популярным решением для озер данных. Оно преобразует данные для интеграции с системой структурированного реляционного хранилища данных.

ELT предлагает конвейер для озер данных для приема неструктурированных данных. Затем он по мере необходимости преобразует данные для анализа.

ETL может редактировать и удалять конфиденциальную информацию, прежде чем помещать ее в хранилище данных или облачный сервер. Это упрощает соблюдение стандартов GDPR, HIPAA и CCPA. Это также защищает данные от взлома и непреднамеренного воздействия.

ELT требует, чтобы вы загрузили данные перед редактированием/удалением конфиденциальной информации. Это может нарушить стандарты GDPR, HIPAA и CCPA. Конфиденциальная информация будет более уязвима для взлома и непреднамеренного раскрытия. Вы также можете нарушить некоторые стандарты соответствия, если облачный сервер находится в другой стране.

Размер данных и сложность преобразований

ETL лучше всего подходит для работы с небольшими наборами данных, требующими сложных преобразований.

ELT лучше всего подходит для работы с огромными объемами структурированных и неструктурированных данных.

Поддержка хранилищ данных

ETL работает с облачными и локальными хранилищами данных. Оно требует реляционного или структурированного формата данных.

ELT работает с облачными хранилищами данных для поддержки структурированных, неструктурированных, полуструктурированных и необработанных типов данных.

Требования к оборудованию

Облачные ETL-платформы не требуют специального оборудования.

Наследованные локальные процессы ETL требуют обширных и дорогостоящих решений по оборудованию, но сегодня они не так популярны.

Процессы ELT основаны на облаке и не требуют специального оборудования.

Чем отличаются агрегаты?

Агрегация усложняется по мере увеличения размера набора данных.

Если у вас есть мощная облачная целевая система данных, вы можете быстро обрабатывать огромные объемы данных.

При создании конвейера ETL легко найти экспертов по ETL. Для облегчения этого процесса доступны высокоразвитые инструменты ETL.

Как новая технология, инструменты для реализации решения ELT все еще развиваются. Более того, бывает сложно найти экспертов с необходимыми знаниями и навыками ELT.

Требования к обслуживанию

Автоматизированные облачные решения ETL, не требуют значительного обслуживания. Однако локальное решение ETL, использующее физический сервер, потребует частого обслуживания.

ELT основан на облаке и, как правило, включает автоматизированные решения, поэтому требуется очень немного обслуживания.

Порядок извлечения, преобразования, загрузки

Преобразование данных происходит сразу после извлечения в промежуточной области. После преобразования данные загружаются в хранилище данных.

Данные извлекаются, а затем загружаются в целевую систему данных. Только после этого некоторые данные преобразуются «по мере необходимости» для аналитических целей.

Облачные платформы SaaS ETL, которые выставляют счет по модели ценообразования с оплатой за сеанс, они предлагают гибкие планы, которые начинаются примерно от 100 долларов и затем увеличиваются в зависимости от требований использования. Между тем, локальное ETL-решение на уровне компании, такое как Informatica, может обойтись даже в 1 миллион долларов в год!

Платформы SaaS ELT на основе облачных вычислений, которые выставляют счет по модели ценообразования с оплатой за сеанс, предлагают гибкие планы, которые начинаются примерно с 100 долларов США, а затем постепенно растут. Ценовое преимущество ELT заключается в том, что вы можете загружать и сохранять свои данные без больших комиссий, а затем преобразовывать их по мере необходимости. Это может сэкономить вам деньги на первоначальных затратах, если вы просто хотите загрузить и сохранить информацию. Однако финансово ограниченные компании могут никогда не позволить себе вычислительную мощность, необходимую для получения всех преимуществ своего озера данных.

Преобразования происходят в промежуточной области за пределами хранилища данных.

Преобразования происходят внутри самой системы данных, и промежуточной области не требуется.

Поддержка неструктурированных данных

ETL можно использовать для структурирования неструктурированных данных, но нельзя использовать для передачи неструктурированных данных в целевую систему.

ELT – это решение для загрузки неструктурированных данных в озеро данных и предоставления неструктурированных данных системам бизнес-аналитики.

Время ожидания для загрузки информации

Время загрузки ETL превышает ELT, потому что это многоступенчатый процесс: (1) загрузка данных в промежуточную область, (2) преобразования, (3) загрузка данных в хранилище данных. После загрузки данных анализ информации происходит быстрее, чем у ELT.

Загрузка данных происходит быстрее, потому что нет ожидания преобразований, и данные загружаются в целевую систему данных только один раз. Однако анализ информации происходит медленнее, чем ETL.

Время ожидания для выполнения преобразований

Преобразование данных изначально занимает больше времени, потому что каждый фрагмент данных перед загрузкой требует преобразования. Кроме того, по мере увеличения размера системы данных преобразования занимают больше времени. Однако после преобразования в систему анализ выполняется быстро и эффективно.

Поскольку преобразования происходят после загрузки по мере необходимости, а вы преобразовываете только данные, которые нужно анализировать в данный момент, преобразования происходят намного быстрее. Однако необходимость постоянного преобразования данных снижает общее время, необходимое для запросов/анализа.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *