Etl informatica что это
Вопросы Собеседования Informatica: Работа с Управлением Данных
Изучаем вопросы для собеседования Informatica. Интеграция и управление данными в Informatica ETL. Отвечаем на вопросы собеседования.
Обновлено: October 23, 2021
Стандарты Проверки Фактов BitDegree.org
Чтобы обеспечить высокий уровень точности и актуальности информации, BitDegree.org регулярно проводит аудит и проверку фактов, следуя строгим редакторским правилам. Для соответствия стандартам надёжности, соблюдаются строгие правила добавления ссылок.
Весь контент на BitDegree.org соответствует данным критериям:
1. Только авторитетные источники такие как академические ассоциации или журналы могут быть использованы для целей исследования при создании контента.
2. Реальный контекст каждой освещаемой темы должен быть раскрыт читателю.
3. Если существует конфликт интересов в указываемом исследовании, то читатель должен быть об этом проинформирован.
Свяжитесь с нами, если вы думаете, что контент является устаревшим, неполным или сомнительным.
Вы когда-нибудь задавались вопросом о том, как крупные компании по всему миру могут успешно работать с большими объёмами своих данных? Несомненно, должна быть оптимизированная и производительная программа интеграции данных, способная помочь им организовать весь этот поток информации. Несмотря на богатый выбор подобных программ, одна из них всё же заметно выделяется на фоне других – Informatica. На данный момент Informatica ETL стала одним из самых популярных инструментов интеграции данных. Конечно, благодаря такой популярности возникла необходимость в специалистах этой сферы. Именно поэтому сегодня мы разберём вопросы собеседования по Informatica – чтобы помочь вам успешно к нему подготовиться!
Для начала мы поговорим о базовых вопросах Informatica, а затем перейдём к темам для более продвинутых администраторов и разработчиков. В этом случае вы сможете быть уверены, что почерпнёте для себя нечто новое.
Содержание
Введение
Давайте начнём с самого начала и поговорим о вводных темах. Вы заметите, что в этой части будет несколько типов вопросов, которые вы сможете встретить на собеседовании. Во-первых, много вопросов будет связано с определениями и сравнениями. Так как мы говорим о базовых вопросах, то ваш работодатель будет стараться понять, насколько хорошо вы разбираетесь в теме и стоит ли вообще переходить к более сложной и практической части собеседования.
Более того, многие компании любят задавать вопросы с примерами. Такого рода вопросы удобны для них, так как являются уникальными. Примеры ситуаций могут быть разными, даже теми, которые случились в самой компании. Давайте предположим, что администраторы данных в компании столкнулись с проблемой некоторое время назад. Для её решения было несколько путей и они выбрали один из них. Во время вашего собеседования ваш работодатель может проверить, смогли ли бы вы решить эту проблему сами.
Основы Очень Важны
Некоторые люди недооценивают базовые вопросы по Informatica ETL. У каждого на это есть свои причины, но в основном всё сводится к тому, что люди думают о них как об очень простых и не стоящих внимания. И именно такой подход может оказать влияние на (не очень удачные) результаты вашего собеседования.
Можно сказать, что именно ответы на эти вопросы позволят работодателю сложить первое впечатление о вас и вашей компетентности в этом вопросе. Очень важно продемонстрировать себя с хорошей стороны и почувствовать уверенность в себе. Ведь управление данными очень сложная и конкурентная сфера.
Многие компании имеют особые тестовые и подготовительные периоды для новых работников. Они необходимы не только для проверки того, нравится ли вам работа, но и подготовки вас для выполнения будущих задач. Это означает, что даже не имея обширных познаний в Informatica и затруднений при ответе на некоторые вопросы, вы всё равно можете получить работу.
Именно поэтому характер и личность очень важны. Если вы покажете, что вы надёжны и действительно заинтересованы в этой теме – хорошо! Если вы также продемонстрируете свои навыки и знания про управление данными – просто отлично! Ваши шансы получить работу серьёзно увеличатся!
Учитывая сказанное, давайте перейдём к базовым вопросам Informatica.
Вопрос 1: Что Такое Informatica?
Многие не ожидают подобный вопрос, так как он кажется слишком очевидным. Хотя на самом деле многие работодатели специально его задают.
Самое важное здесь, чтобы вы ответили своими словами. Подумайте об этом: если вы выдадите заученное определение из Интернета (даже очень подробное), то какое впечатление вы произведёте на потенциального работодателя? Запомните, скорее всего они задавали этот вопрос уже много раз, поэтому слышали ответ на него почти столько же. Они вполне могут понять, когда вы просто говорите заученное определение, а когда по-настоящему отвечаете на этот вопрос.
Если вы хотите оставить хорошее впечатление на работодателя, то попробуйте объяснить этот концепт своими словами. Это покажет то, что вы действительно разбираетесь в теме и можете ответить на другие менее шаблонные вопросы. Именно на таких мелочах получается выглядеть лучше других кандидатов!
Итак, возвращаясь к вопросу – что такое Informatica?
Проще говоря, Informatica — это инструмент управления и интеграции данных, который помогает компаниям работать с большим объёмом информации. Informatica используется администраторами данных (может быть это именно та работа, на которую вы претендуете) – они передают, управляют и сортируют информацию компании с помощью Informatica.
Вопрос 2: Что Такое Домен?
Также как и в других случаях, домены используются для размещения определённых наборов процессов или переменных. Все данные, находящиеся в домене, поддерживаются и управляются одной организационной точкой.
Вопрос 3: Что Такое Хранилище Данных?
Отличный пример одного из самых базовых вопросов по Informatica ETL. Его часто можно найти в списках вопросов для собеседования.
Хранилище данных (на корпоративном уровне) является единственным местом, где вся информация (данные) компании хранятся и разрабатываются.
Вопрос 4: В Чём Отличие Joiner Transformation и Source Qualifier?
Join Transformation используется для объединения разнородных данных, тогда как Source Qualifiers может объединять данные, которые происходят от одной и той же базы данных.
Вопросы-сравнения очень часто задаются при проведении собеседования, так как позволяют узнать насколько человек осведомлён в различных вопросах. Сравнение требует наличие более углубленных знаний и проведения анализа.
Вопрос 5: Назовите Типы Групп, Присутствующих в Преобразовании Router.
Преобразование Router обладает тремя типами групп – default, input и output.
Вопрос 6: Вы Заметили, Что Ваш Коллега Секцирует Свои Сессии. Каковы Преимущества Этого?
Секцируя ваши сессии на части, вы улучшаете производительность сервера Informatica. Секцирование позволяет серверу выполнять различные процессы параллельно друг другу.
Это отличный пример вопроса с заданной ситуацией. Как вы понимаете, сам вопрос не обязательно должен быть сложным – просто он представлен в довольно необычном формате для потенциального работника.
Вопрос 7: Как Много Хранилищ Вы Можете Иметь?
В любое заданное время вы можете иметь неограниченное количество хранилищ. Всё зависит от числа портов, которыми вы обладаете.
Вопрос 8: Каковы Основные Функции Lookup Transformation?
Основной особенностью Lookup Transformation является то, что она имеет доступ к RDBMS – “Relational Database Management System” или “Реляционной Системе Управления Базами Данных”.
Вопрос 9: Какие Основные Типы Схем Хранения Данных, Вы Можете Применить в Informatica?
Всего есть три типа подобных схем – схема fact constellation, star и snowflake.
Вопрос 10: Что Такое Mapplet?
Mapplet — это объект, который может быть использован несколько раз. Он используется в маппинге – тот факт, что его функции могут быть использованы повторно, делают процесс маппинга для разработчиков гораздо проще.
Продвинутые Вопросы По Informatica
Теперь, когда мы рассказали про некоторые самые популярные базовые вопросы по Informatica, настало время перейти к более продвинутому материалу.
Основной ошибкой многих людей касательно продвинутых вопросов является то, что они думают о них как о сложных заданиях, вроде создания сложных схем на базе Informatica. Хотя честно говоря, подобные вопросы задаются только для должностей очень высокого уровня, поэтому вам не стоит беспокоиться. Большая часть продвинутых вопросов, к примеру касательно Informatica PowerCenter, очень похожа на базовые вопросы. Единственным отличием является то, что вам нужно будет давать свои ответы более детально и наглядно или показать свои познания в более специфических сферах Informatica.
Отличным способом ответить на эти вопросы будет добавить несколько подкрепляющих предложений для вашего ответа, чтобы объяснить его. В этом случае вы не только дадите ответ на интересующий вопрос, но и продемонстрируете свою возможность вести беседу на заданную тему. Благодаря этому у работодателя должно сложиться впечатление, что вы действительно разбираетесь в вопросе
Вопрос 1: Что Такое Пространственные Таблицы?
Пространственные таблицы являются ключевой функцией для предприятий, которые используют Informatica. Они предназначены для того, чтобы помочь сегментировать и описать данные компании в иерархическом порядке. В таком случае их будет легче воспринимать и получить к ним доступ.
Вопросы, касающиеся определения того или иного термина, могут быть встречаться как в базовом, так и более продвинутом формате – обратите на это внимание!
Вопрос 2: Назовите Несколько Методов Того, Как Бы Вы Реализовали Параллельную Обработку в Informatica.
Существует несколько методов для этого. Здесь всё зависит от того, какой из них будет наиболее приемлем для вас и для ситуации в общем. Однако все методы основаны на секцировании данных. В качестве примера можно назвать: сквозное разделение, секцирование базы данных и циклическое секцирование – это лишь некоторые методы, используемые для реализации параллельной обработки.
Вопрос 3: Работая с Процессом Маппинга, Как Бы Вы Получили Отдельные Значения?
Для начала вам нужно будет выбрать поля, которые вы хотите сделать отдельными. После этого, прежде чем вставлять данные, просто добавьте агрегатор по этим конкретным полям.
Вопрос 4: Почему Informatica Может Не Принимать Определённые Файлы?
Управление данными всегда имеет подобные проблемы, поэтому важно уделить особое внимание таким вопросам.
Это происходит по той причине, что Informatica использует DD_REJECT в стратегии обновления.
Вопрос 5: Как Вы Можете Фильтровать Строки Используя Преобразования?
Опять же, этот вопрос имеет несколько возможных ответов на него. В этом случае лучше упомянуть каждый из возможных вариантов, чтобы показать ваши познания в этом вопросе.
Отфильтровать строки можно четырьмя различными способами – используя Source Qualifiers, Filter, Joiner или Router.
Это были некоторые продвинутые вопросы собеседования по Informatica, на которые вы должны обратить особое внимание. Естественно, что существует множество различных вариаций этих вопросов, касающихся различных тем. Назвать каждый из них будет невозможно. Однако, если вы освоите данные вопросы и попробуйте узнать о каждой из затронутых тем больше, то этого должно быть достаточно!
Самые Популярные Статьи
Взгляните на нашу коллекцию руководств, статей и уроков про платформы для онлайн обучения и массовые открытые онлайн курсы. Всегда будьте в курсе и принимайте взвешенные решения!
Как заработать деньги в интернете из дома?
Хотите узнать, как заработать деньги в интернете из дома? В этой статье содержатся несколько рабочих способов, с которых вы можете начать!
Rust vs C++: Объясняем Различия и Сходства
Выбирать между различными языками программирования может быть сложно. Однако мы здесь для того, чтобы облегчить вашу задачу и провести сравнение Rust vs C++.
Сколько зарабатывает UX дизайнер?
Полный гайд, сколько зарабатывает UX дизайнер: узнайте минимальную и максимальную зарплату UX дизайнера и какие бывают группы UX дизайнеров
Заключение
Итак, мы достигли последнего раздела нашего руководства. Ранее мы раскрыли некоторые популярные вопросы собеседования по инструменту Informatica, которые вполне могут попасться вам на следующем собеседовании.
Управление данными очень непростая тема и использование Informatica для этого также очень непростое занятие. Именно поэтому различные компании готовы платить неплохие деньги и предоставлять отличные условия труда для тех, кто может предоставить им профессиональные услуги по управлению и интеграции данных. Если вы тщательно подготовитесь и покажете должную мотивацию, то вы вполне сможете присоединиться к команде администраторов.
Будь то простые запросы или сложные темы – не пропускайте их и попробуйте подготовиться к ним. Вы никогда не знаете, что ваш потенциальный работодатель захочет у вас спросить. Вопросы из этого руководства должны показать вам правильное направление для продолжения вашего изучения и подготовки.
Надеемся, что эта информация была для вас полезной и поможет вам заполучить работу мечты. Запомните – учитесь усердно, попробуйте расслабиться и выложитесь на полную в нужный момент!
Оставьте ваше честное мнение
Чернобровов Алексей Аналитик
ETL: что такое, зачем и для кого
В статье рассмотрено одно из ключевых BI-понятий (Business Intelligence) – ETL-технологии: определение, история возникновения, основные принципы работы, примеры реализации и типовые варианты использования (use cases). Также отмечены некоторые проблемы применения ETL и способы их решения с помощью программных инструментов обработки больших данных (Big Data).
Что такое ETL и зачем это нужно
Начнем с определения: ETL (Extract, Transform, Load) – это совокупность процессов управления хранилищами данных, включая [1]:
Понятие ETL возникло в результате появления множества корпоративных информационных систем, которые необходимо интегрировать друг с другом с целью унификации и анализа хранимых в них данных. Реляционная модель представления данных, подходящая для потребностей транзакционных систем, оказалась неэффективной для комплексной обработки и анализа информации. Поиск унифицированного решения привел к развитию хранилищ и витрин данных – самостоятельных систем хранения консолидированной информации в виде измерений и показателей, что считается оптимальным для формирования аналитических запросов [2].
Прикладное назначение ETL состоит в том, чтобы организовать такую структуру данных с помощью интеграции различных информационных систем. Учитывая, что BI-технологии позиционируются как «концепции и методы для улучшения принятия бизнес-решений с использованием систем на основе бизнес-данных» [3], можно сделать вывод о прямой принадлежность ETL к этому технологическому стеку.
Как устроена ETL-система: архитектура и принцип работы
Независимо от особенностей построения и функционирования ETL-система должна обеспечивать выполнение трех основных этапов процесса ETL-процесса (рис.1) [4]:
Рис. 1. Обобщенная структура процесса ETL
Таким образом, ETL-процесс представляет собой перемещение информации (потока данных) от источника к получателю через промежуточную область, содержащую вспомогательные таблицы, которые создаются временно и исключительно для организации процесса выгрузки (рис. 2) [1]. Требования к организации потока данных описывает аналитик. Поэтому ETL – это не только процесс переноса данных из одного приложения в другое, но и инструмент подготовки данных к анализу.
Рис. 2. Потоки данных между компонентами ETL
Для подобных запросов предназначены OLAP-системы. OLAP (Online Analytical Processing) – это интерактивная аналитическая обработка, подготовка суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу. При этом строится сложная структура данных – OLAP-куб, включающий таблицу фактов, по которым делаются ключевые запросы и таблицы агрегатов (измерений), показывающие, как могут анализироваться агрегированные данные. Например, группировка продуктов по городам, производителям, потребителям и другие сложные запросы, которые могут понадобиться аналитику. Куб потенциально содержит всю информацию, нужную для ответов на любые количественные и пространственно-временные вопросы. При огромном количестве агрегатов зачастую полный расчёт происходит только для некоторых измерений, для остальных же производится «по требованию» [6].
Таким образом, основные функции ETL-системы можно представить в виде последовательности операций по передаче данных из OLTP в OLAP (рис. 3) [7]:
Рис. 3. ETL-процесс по передаче данных от OLTP в OLAP
Немного про хранилища и витрины данных
ETL часто рассматривают как средство переноса данных из различных источников в централизованное КХД. Однако КХД не связано с решением какой-то конкретной аналитической задачи, его цель — обеспечивать надежный и быстрый доступ к данным, поддерживая их хронологию, целостность и непротиворечивость. Чтобы понять, каким образом КХД связаны с аналитическими задачами и ETL, для начала обратимся к определению.
Корпоративное хранилище данных (КХД, DWH – Data Warehouse) – это предметно-ориентированная информационная база данных, специально разработанная и предназначенная для подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в организации. Информация в КХД, как правило, доступна только для чтения. Данные из OLTP-системы копируются в КХД таким образом, чтобы при построении отчётов и OLAP-анализе не использовались ресурсы транзакционной системы и не нарушалась её стабильность. Есть два варианта обновления данных в хранилище [8]:
ETL-процесс позволяет реализовать оба этих способа. Отметим основные принципы организации КХД [8]:
Витрина данных (Data Mart) представляет собой срез КХД в виде массива тематической, узконаправленной информации, ориентированного, например, на пользователей одной рабочей группы или департамента. Витрина данных, аналогично дэшборд-панели, позволяет аналитику увидеть агрегированную информацию в определенном временном или тематическом разрезе, а также сформировать и распечатать отчетные данные в виде шаблонизированного документа [9].
При проектировании хранилищ и витрин данных аналитику следует ориентироваться на возможности их прикладного использования и с учетом этого разрабатывать ETL-процессы. Например, если известно, что информация, поступающая из определенных подразделений, является самой важной и полезной, а также наиболее часто анализируется, то в регламент переноса данных в хранилище стоит внести соответствующие приоритеты. Это позволит ускорить работу с информацией, что особенно важно для data-driven организаций со сложной многоуровневой филиальной структурой и большим количеством подразделений [4].
Прикладные кейсы использования ETL-технологий
Рассмотрим пару типовых примеров использования ETL-систем [10].
Кейс 1. Прием нового сотрудника на работу, когда требуется завести учетную карточку во множестве корпоративных систем. В реальности в средних и крупных организациях этим занимаются специалисты разных подразделений, не скоординировав задачу между собой. Поэтому на практике часто возникают ситуации, когда принятый на работу сотрудник подолгу не может получить банковскую карту, потому что его учетная запись не была вовремя заведёна в бухгалтерии, а уже уволенные сотрудники имеют доступ к корпоративной почте и приложениям, т.к. их аккаунты не заблокированы в домене. ETL поможет быстро наладить взаимодействие между всеми корпоративными информационными системами.
Аналогичным образом ETL-технологии помогут автоматизировать удаление аккаунтов сотрудника из всех корпоративных систем в случае увольнения. В частности, как только в HR-систему попадут данные о дате окончания карьеры сотрудника на этом месте работы, информация о необходимости блокировки его записи поступит контроллеру домена, его корпоративная почта автоматически архивируется, а почтовый ящик блокируется. Также возможен полуавтоматический режим с созданием заявки на блокировку в службу технической поддержки, например, Help Desk.
Кейс 2. Разноска платежей, когда при взаимодействии со множеством контрагентов необходимо сопоставить информацию в виде платёжных документов, с деньгами, поступившими на расчетный счёт. В реальности это два независимых потока данных, которые сотрудники бухгалтерии или операционисты связывают вручную. Далеко не все корпоративные финансовые системы имеют функцию автоматической привязки платежей.
Итак, информация о платежах поступает от платежной сети в зашифрованном виде, т.к. содержит персональные данные. Вторым потоком данных являются файлы в формате DBF, содержащие информацию о банках-контрагентах, которая требуется для геолокации платежа. Наконец, с минимальной задержкой в три банковских дня, приходят деньги и выписка с платежами, проведёнными через банк-партнёр. Отметим, что в реальности прямой связи между всеми этими данными нет: номера документов, указанные в реестрах от платёжной системы и банка, не совпадают, а из-за особенностей работы банка дата платежа, которая значится в выписке, может не соответствовать дате реальной оплаты, которая содержится в зашифрованном файле реестра.
Расшифровку данных можно включить в ETL-процесс, в результате чего получится текстовый файл сложной структуры, содержащий ФИО, телефон, паспортные данные плательщика, сумму и дату платежа, а также дополнительные технические данных, идентифицирующие транзакцию. Это как раз позволит связать платёж с данными из банковской выписки. Данные из реестра обогащаются информацией о банках-контрагентах (филиалах, подразделениях, городах и адресах отделений), после этого осуществляются их соответствие (мэппинг) к конкретным полям таблиц корпоративных информационных систем и загрузка в КХД. Обогащение уже очищенных данных происходит в рамках реляционной модели с использованием внешних ключей.
После прихода банковской выписки запускается ещё один ETL-процесс, задача которого состоит в сопоставлении ранее полученной информации о платежах с реально пришедшими деньгами. Поскольку выписки приходят из банка в текстовом формате, первым шагом трансформации является разбор файла, затем идет процесс автоматической привязки платежей с использованием информации, ранее загруженной в корпоративную систему из реестров платежей и банков. В процессе привязки происходит сравнение не только ключей, идентифицирующих транзакцию, но и суммы и ФИО плательщика, а также отделения банка. Также решается задача исправления неверной даты платежа, указанной в банковской выписке, на реальную дату его совершения.
В результате нескольких ETL-процессов получилась система автоматической привязки платежей, при этом основные затраты были связаны с не с разработкой программного обеспечения, а с проектированием и изучением форматов файлов. В редких случаях ручной привязки обогащение данных с помощью ETL-технологии существенно облегчает эту процедуру. В частности, наличие телефонного номера плательщика позволяет уточнить данные о платеже лично у него, а геолокация платежа даёт информацию для аналитических отчётов и позволяет более эффективно отслеживать переводы от партнёров-брокеров (рис. 4).
Рис. 4. Организация разноски платежей с помощью ETL
Современный рынок ETL-систем и особенности выбора
Существует множество готовых ETL-систем, реализующих функции загрузки данных в КХД. Среди коммерческих решений наиболее популярными считаются следующие [11]:
К категории условно бесплатных можно отнести [11]:
При выборе готовой ETL-системы необходимо, в первую очередь, руководствоваться не бюджетом ее покупки или стоимостью использования, а следующими функциональными критериями:
Многие из современных промышленных решений представляют собой технологические платформы, позволяющие масштабировать ETL-процессы с поддержкой параллелизма выполнения операций, перераспределением нагрузки по обработке информации между источниками и самой системой, а также другими функциями в области интеграции данных. Поэтому выбор ETL-средства – это своего рода компромисс между конкретным проектным решением, текущими и будущими перспективами использования ETL-инструментария, а также стоимостью разработки и поддержания в актуальном состоянии всех используемых функций ETL-процесса [2].
Некоторые проблемы ETL-технологий и способы их решения
Как правило, ETL-системы самостоятельно справляются с проблемами подготовки данных к агрегированию и анализу, выполняя операции очистки данных. При этом устраняются проблемы качества данных: проверка на корректность форматов и типов, приведение значений к нужному диапазону, заполнение пропусков, удаление дубликатов, противоречий и нарушений структуры. Однако, кроме очистки данных, можно выделить еще пару трудоемких задач, которые не решаются автоматически:
значимость данных с точки зрения анализа; сложность получения данных из источников; возможное нарушение целостности и достоверности данных; объем данных в источнике.
На практике часто приходится искать компромисс между этими факторами. Например, данные могут представлять несомненную ценность для анализа, но сложность их извлечения или очистки может свести на нет все преимущества от использования [4].
Таким образом, Big Data инструменты пакетной и потоковой обработки позволяют дополнить типовые ETL-системы, предоставляя бизнес-пользователям более широкие возможности по работе с корпоративной информацией. Однако, в этом случае временные, трудовые и финансовые затраты на аналитику данных существенно возрастут, т.к. понадобятся дорогие специалисты: Data Engineer, который выстроит конвейер данных (pipeline), а также Data Scientist, который разработает программное приложение для онлайн-аналитики, включая оригинальные ML-алгоритмы. Впрочем, такие инвестиции будут оправданы, если предприятие достигло хотя бы 3-го уровня управленческой зрелости по модели CMMI, обладает большим количеством разных данных с высоким потенциалом для аналитики и стремится стать настоящей data-driven компанией. Однако, чтобы эти вложения принесли выгоду, а не превратились в пустые траты, стоит адекватно оценить свои потребности и возможности, возможно, с привлечением внешнего консультанта по аналитике данных.
Стоит отметить, что разработчики многих ETL-систем учитывают потребность аналитики больших данных с помощью своих продуктов и потому включают в их возможности работы с Apache Hadoop и Spark, как, например, Pentaho Business Analytics Platform [14]. В этом случае не придется самостоятельно разрабатывать средства интеграции ETL-системы с распределенными решениями сбора и обработки больших данных, а можно воспользоваться готовыми коннекторами и API-интерфейсами. Впрочем, это не отменяет необходимость предварительной аналитической работы по проектированию и реализации ETL-процесса. Организация сбора информации в хранилище данных может достигать до 80% трудозатрат по проекту. Учет различных аспектов ETL-процессов с прицелом на будущее позволит тщательно спланировать необходимые работы, избежать увеличения общего времени реализации и стоимости проекта, а также обеспечить BI-систему надежными и актуальными данными для анализа [2].