Для чего нужна библиотека pandas

Библиотека Pandas в Python

Pandas – это библиотека с открытым исходным кодом на Python. Она предоставляет готовые к использованию высокопроизводительные структуры данных и инструменты анализа данных.

Установка и начало работы с Pandas

Для установки модуля Pandas вам потребуется Python 2.7 и выше.

Если вы используете conda, вы можете установить его, используя команду ниже.

Если вы используете PIP, выполните команду ниже, чтобы установить модуль pandas.

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Чтобы импортировать Pandas и NumPy в свой скрипт Python, добавьте следующий фрагмент кода:

Поскольку Pandas зависит от библиотеки NumPy, нам нужно импортировать эту зависимость.

Структуры данных

Модуль Pandas предоставляет 3 структуры данных, а именно:

DataFrame

DataFrame – самая важная и широко используемая структура данных, а также стандартный способ хранения данных. Она содержит данные, выровненные по строкам и столбцам, как в таблице SQL или в базе данных электронной таблицы.

Мы можем либо жестко закодировать данные в DataFrame, либо импортировать файл CSV, файл tsv, файл Excel, таблицу SQL и т.д.

Мы можем использовать приведенный ниже конструктор для создания объекта DataFrame.

Ниже приводится краткое описание параметров:

Есть много способов создать DataFrame. Мы можем создать объект из словарей или списка словарей. Мы также можем создать его из списка кортежей, CSV, файла Excel и т.д.

Давайте запустим простой код для создания DataFrame из списка словарей.

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Первый шаг – создать словарь. Второй шаг – передать словарь в качестве аргумента в метод DataFrame(). Последний шаг – распечатать DataFrame.

Как видите, DataFrame можно сравнить с таблицей, имеющей неоднородное значение. Кроме того, можно изменить размер.

Мы предоставили данные в виде карты, и ключи карты рассматриваются Pandas, как метки строк.

Индекс отображается в крайнем левом столбце и имеет метки строк. Заголовок столбца и данные отображаются в виде таблицы.

Также возможно создавать индексированные DataFrames. Это можно сделать, настроив параметр индекса.

Импорт данных из CSV

Мы также можем создать DataFrame, импортировав файл CSV. Файл CSV – это текстовый файл с одной записью данных в каждой строке. Значения в записи разделяются символом «запятая».

Pandas предоставляет полезный метод с именем read_csv() для чтения содержимого файла CSV.

Например, мы можем создать файл с именем «cities.csv», содержащий подробную информацию о городах Индии. Файл CSV хранится в том же каталоге, что и сценарии Python. Этот файл можно импортировать с помощью:

Наша цель – загрузить данные и проанализировать их, чтобы сделать выводы. Итак, мы можем использовать любой удобный способ загрузки данных.

Проверка данных

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Точно так же print (df.dtypes) печатает типы данных.

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

print (df.index) печатает index.

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

print (df.columns) печатает столбцы DataFrame.

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

print (df.values) отображает значения таблицы.

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

1. Получение статистической сводки записей

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Функция df.describe() отображает статистическую сводку вместе с типом данных.

2. Сортировка записей

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

3. Нарезка записей

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Интересной особенностью библиотеки Pandas является выбор данных на основе меток строк и столбцов с помощью функции iloc [0].

Часто для анализа может потребоваться всего несколько столбцов. Мы также можем выбрать по индексу, используя loc [‘index_one’]).

Допустим, нам нужно выбрать второй элемент второго столбца. Это можно сделать с помощью функции df.iloc [1,1]. В этом примере функция df.iloc [1,1] отображает в качестве вывода «Мумбаи».

4. Фильтрация данных

Для фильтрации по условию можно использовать любой оператор сравнения.

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

5. Переименование столбца

Аргумент inplace = True вносит изменения в DataFrame.

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

6. Сбор данных

Наука о данных включает в себя обработку данных, чтобы данные могли хорошо работать с алгоритмами данных. Data Wrangling – это процесс обработки данных, такой как слияние, группировка и конкатенация.

Библиотека Pandas предоставляет полезные функции, такие как merge(), groupby() и concat() для поддержки задач Data Wrangling.

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

а. merge()

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Мы видим, что функция merge() возвращает строки из обоих DataFrames, имеющих то же значение столбца, которое использовалось при слиянии.

b. Группировка

Поле «Employee_name» со значением «Meera» сгруппировано по столбцу «Employee_name». Пример вывода приведен ниже:

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

c. Конкатенация

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Создание DataFrame, переход Dict в Series

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Мы создали серию. Вы можете видеть, что отображаются 2 столбца. Первый столбец содержит значения индекса, начиная с 0. Второй столбец содержит элементы, переданные как серии.

Можно создать DataFrame, передав словарь Series. Давайте создадим DataFrame, который формируется путем объединения и передачи индексов ряда.

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Для первой серии, поскольку мы не указали метку ‘d’, возвращается NaN.

Выбор столбца, добавление и удаление

Приведенный выше код печатает только столбец «Matches played» в DataFrame.

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Заключение

В этом руководстве у нас было краткое введение в библиотеку Pandas в Python. Мы также сделали практические примеры, чтобы раскрыть возможности библиотеки, используемой в области науки о данных. Мы также рассмотрели различные структуры данных в библиотеке Python.

Источник

Как изучить Pandas

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Pandas — это библиотека Python, которая позволяет вам работать с данными, организованными с использованием строк и столбцов, иногда называемых «табличными данными». Вы, вероятно, использовали электронную таблицу, например, Excel, для управления табличными данными. Прелесть Pandas в том, что вы можете использовать его для аналогичных задач, для которых вы бы использовали Excel, например, для простых операций с данными, но вы также можете использовать его для выполнения сложных задач науки о данных, таких как машинное обучение.

Pandas — популярный инструмент в области науки о данных. Его можно использовать для принятия бизнес-решений в разных отраслях, помогая людям принимать решения в таких областях, как маркетинг, продажи, создание продуктов, финансы и здоровье.

Что такое Pandas?

Pandas — это библиотека Python с инструментами анализа данных. Использование этой библиотеки позволяет вам манипулировать данными, чтобы получить из них информацию. Уэс МакКинни создал Pandas, и изначально он был разработан для выполнения количественного анализа финансовых данных. В 2009 году был выпущен Pandas, и с тех пор он стал популярным как инструмент для анализа данных.

С помощью Pandas вы можете импортировать данные из баз данных, таких как Excel. Pandas позволяет вам очистить ваши данные перед их анализом. «Очистка» ваших данных, часто называемая «обработкой данных» или «обработкой данных», — это процесс удаления ошибочных данных из вашего набора данных перед их обработкой и извлечения из него каких-либо выводов. Важно иметь чистые и точные данные. В противном случае результаты вашего процесса анализа будут в лучшем случае искажёнными, а в худшем — бесполезными.

При использовании Pandas вы, вероятно, будете использовать платформу под названием Jupyter Notebook, инструмент, часто используемый для проектов в области науки о данных. Jupyter Notebook позволяет очищать и преобразовывать данные. С его помощью вы также можете выполнять такие задачи, как статистическое моделирование и машинное обучение. Он похож на редактор кода: вы можете вводить и запускать код внутри него.

Если вы знакомы с Python, вы знаете о структурах данных, таких как массивы и словари. В Pandas центральной структурой данных является DataFrame, двумерная помеченная структура данных со столбцами, похожая на электронную таблицу. В верхней части таблицы обычно есть строка, содержащая заголовок каждой строки. У него также есть столбец сбоку, содержащий заголовок каждого столбца. В Pandas каждый из этих разделов «заголовок» называется индексом. Как и в случае с электронной таблицей Excel, вы можете изменить эту структуру данных.

Для чего используются Pandas?

Pandas используется для анализа данных в области науки о данных. Наука о данных — это просто изучение данных с целью получения информации из наборов данных. Набор данных может включать всего несколько записей или миллионы отдельных единиц информации. Задача специалиста по данным — извлечь смысл из этих данных посредством процесса уточнения и анализа. После завершения анализа результаты можно визуализировать с помощью таких инструментов, как Matplotlib, ещё одна библиотека Python.

Если вы интересуетесь наукой о данных, вам обязательно нужно изучить Pandas. Даже если вы не хотите быть специалистом по данным, но по-прежнему заинтересованы в процессе анализа данных, вы всё равно должны понимать эту ценную технологию.

Что конкретно могут делать панды?

Изучение Pandas

Всё больше и больше бизнес-ролей требуют понимания данных. Данные определяют решения, принимаемые в таких областях, как продажи, маркетинг и разработка продуктов, а это означает, что даже если вы в настоящее время не являетесь специалистом по данным в своей компании, от вас могут ожидать извлечения смысла из данных. Изучение использования библиотек Python, таких как Pandas, может помочь вам принимать решения на основе данных. Узнайте больше о том, почему каждый должен быть грамотным в области данных.

Тем не менее, есть много возможностей трудоустройства для людей, которые хотят сосредоточиться на использовании Pandas и других библиотек Python.

Люди с навыками анализа и обработки данных могут получать хорошую зарплату. По данным Glassdoor, средняя годовая зарплата аналитиков в США составляет 62 453 доллара. Для таких компаний, как Google и Facebook, эта цифра находится в диапазоне от 90 до 100 тысяч долларов. В самом деле, средняя зарплата аналитика данных составляет 75 091 доллар. Для специалистов по анализу данных цифры выше: по данным Glassdoor, средняя зарплата в области науки о данных составляет 113 309 долларов, а Indeed записывает в среднем 122 525 долларов.

Pandas — важный навык, позволяющий узнать, хотите ли вы лучше понимать данные на своей текущей работе или хотите стать аналитиком данных или учёным.

Сколько времени нужно, чтобы выучить Pandas?

Предполагая, что вы уже знаете Python, вам понадобится около двух недель, чтобы начать работу с Pandas. Сосредоточьтесь на основных манипуляциях с данными, когда начинаете свои проекты Pandas. По мере улучшения ваших навыков экспериментируйте с более сложными применениями, такими как визуализация данных и машинное обучение. Использование Pandas для машинного обучения потребует от вас знания дополнительных инструментов, таких как Scikit-Learn, поэтому вы также захотите изучить эти навыки.

Трудно ли выучить Pandas?

Вы должны знать Python, прежде чем изучать Pandas. К счастью, Python является легко читаемым языком и подходит для программистов, которые только начинают изучать веб-разработку. Существует множество ресурсов, которые помогут вам изучить Python, в том числе это исчерпывающее руководство по изучению Python.

Когда вы овладеете Python, вы будете готовы попробовать свои силы в анализе данных с помощью библиотек Python, таких как Pandas.

Вы также должны отметить, что Pandas построен на основе NumPy, библиотеки Python, используемой для математических операций, поэтому, если вы знакомы с NumPy, вам может быть проще изучить Pandas.

При изучении Pandas следует помнить, что вы можете установить его как часть платформы анализа данных под названием Anaconda. Когда вы устанавливаете Anaconda на свой компьютер, вы устанавливаете все библиотеки, пакеты и другие инструменты Python, которые можно использовать в целях науки о данных, включая Pandas, Matplotlib и Jupyter Notebook.

Фактически, документация Pandas рекомендует вам загрузить Anaconda, чтобы получить Pandas на свой компьютер, вместо того, чтобы устанавливать Pandas отдельно. Вы можете скачать Anaconda здесь.

Как выучить Pandas: шаг за шагом

Вот несколько общих рекомендаций, которые следует использовать, когда вы начнёте изучать Pandas.

Книги Pandas

Чтение книг о Python даст вам возможность усвоить контент, написанный экспертами в этой области. Помимо прохождения курсов, книги могут помочь вам начать работу над собственными проектами Pandas.

«Справочник по науке о данных Python» Джейка Вандерпласа

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Эта книга доступна онлайн бесплатно на Github. Это отличное введение в библиотеки науки о данных Python, включая Pandas. Если вас также интересуют некоторые другие библиотеки Python, такие как Numpy, Matplotlib и Sci-kit-learn, это отличная книга для вас.

«Изучение библиотеки Pandas: инструменты Python для преобразования данных, анализа и визуализации» Мэтта Харрисона

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Эта книга позволяет вам узнать о Pandas с помощью примеров, примеров кода и графики. Это займёт вас от установки до обработки DataFrames. Лучше всего читать, когда вы знаете Python, поэтому убедитесь, что у вас есть хорошее понимание языка программирования, чтобы получить от него максимальную отдачу. Кстати, «обработка данных» или «обработка данных» — это процесс уточнения данных перед их анализом.

«Python для анализа данных: борьба с данными с помощью Pandas, NumPy и IPython» Уэса МакКинни

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Эта книга написана создателем Pandas. Знайте, что Pandas — это всего лишь один навык, который вы захотите использовать в своём наборе инструментов для анализа данных: вы также должны быть знакомы с другими технологиями, такими как Matplotlib, NumPy и Jupyter. Эта книга предлагает вам фантастическое введение во все эти навыки.

Ресурсы Pandas

Продолжая своё путешествие по изучению Pandas, вы захотите использовать доступные онлайн-ресурсы. Пока вы работаете над проектами, будут возникать вопросы, поэтому вам нужно знать, где искать ответы.

Официальный сайт Pandas

Официальный веб-сайт Pandas позволяет вам загрузить Pandas, получить книгу Python для анализа данных и принять участие в сообществе Pandas.

Документация Pandas

Один из лучших ресурсов для изучения любой новой технологии — это её документация. Этот ресурс, доступный бесплатно в Интернете, содержит полезные руководства и информацию о различных аспектах Pandas. Вы можете узнать, как начать работу с Pandas, опробовать обучающие программы и прочитать обо всех задачах, которые вы можете выполнять с помощью Pandas, в руководстве пользователя.

Kaggle Learn Pandas Учебник

Kaggle — это платформа для анализа данных, которая предлагает бесплатные курсы по науке о данных в дополнение к другим ресурсам. Один из этих курсов — их курс Pandas. Это займёт около четырёх часов и поможет вам узнать, как получить представление о ваших данных, как выполнять задачи группировки и сортировки. У Kaggle есть репозиторий наборов данных, которые вы можете использовать для поддержки своих проектов анализа данных. А также есть форумы, к которым вы можете присоединиться. Если вас интересует наука о данных, попробуйте Kaggle.

Learnpython.org Pandas Basics Интерактивное руководство

Готовы увидеть панд в действии? С помощью этого интерактивного руководства вы можете запускать примеры кода в своём браузере без установки Pandas или каких-либо других технологий. Этот веб-сайт — отличный ресурс, который поможет вам увидеть, как работают Pandas.

Заключение

Pandas — это библиотека Python, используемая для обработки, уточнения и анализа данных. Если вы раньше работали с Excel, вы знаете, что анализ табличных данных может помочь в принятии бизнес-решений. Pandas также работает с табличными данными, но предлагает более сложные функции, чем Excel.

Вы можете комбинировать Pandas с библиотекой визуализации данных, такой как Matplotlib, для создания общих результатов. Когда вы объединяете Pandas с Scikit-Learn, другой библиотекой Python, вы можете выполнять задачи машинного обучения.

Pandas — популярный инструмент, используемый в областях анализа данных и науки о данных. Работа аналитиком данных или специалистом по обработке данных обычно приносит большие зарплаты, поэтому это может быть разумным карьерным шагом, если у вас есть навыки, необходимые для такого рода работы. Даже если вы не хотите быть аналитиком или специалистом по данным, изучение Pandas может помочь вам в повседневной работе.

Источник

Pandas

Pandas — это библиотека Python для обработки и анализа структурированных данных, её название происходит от «panel data» («панельные данные»). Панельными данными называют информацию, полученную в результате исследований и структурированную в виде таблиц. Для работы с такими массивами данных и создан Pandas.

Работа с открытым кодом

Pandas — это opensource-библиотека, то есть ее исходный код в открытом доступе размещен на GitHub. Пользователи могут добавлять туда свой код: вносить пояснения, дополнять методы работы и обновлять разделы. Для работы потребуется компилятор (программа, которая переводит текст с языка программирования в машинный код) C/C++ и среда разработки Python. Подробный процесс установки компилятора С для разных операционных систем можно найти в документации Pandas.

В каких профессиях понадобится библиотека?

Навык работы с этой библиотекой пригодится дата-сайентистам или аналитикам данных. С помощью Pandas эти специалисты могут группировать и визуализировать данные, создавать сводные таблицы и делать выборку по определенным признакам.

Как установить Pandas

Шаг 1. На официальном сайте Pandas указан самый простой способ начать работу с библиотекой. Для этого потребуется установить Anaconda — дистрибутив (форма распространения программного обеспечения, набор библиотек или программного кода для установки программы) для Python с набором библиотек. Безопасно скачать его можно на официальном сайте.

Вот несколько советов по установке Anaconda для новичков:

Шаг 2. В командной строке Anaconda запустите JupyterLab — это интерактивная среда для работы с кодом, данными и блокнотами, которая входит в пакет дистрибутива.

Шаг 3. Создайте в JupyterLab новый блокнот Python3.

Шаг 4. В первой ячейке пропишите: import pandas as pd, после этого в следующих ячейках можно писать код.

DataFrame и Series

Чтобы анализировать данные с помощью Pandas, нужно понять, как устроены структуры этих данных внутри библиотеки. В первую очередь разберем, что такое DataFrame и Series.

Pandas Series (серия) — это одномерный массив. Визуально он похож на пронумерованный список: слева в колонке находятся индексы элементов, а справа — сами элементы.

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Индексом может быть числовой показатель (0, 1, 2…), буквенные значения (a, b, c…) или другие данные, выбранные программистом. Если особое значение не задано, то числовые индексы проставляются автоматически. Например, от 0 до 5 как в примере выше.

Такая нумерация называется RangeIndex, в ней всегда содержатся числа от 0 до определенного числа N, которое обозначает количество элементов в серии. Собственные значения индексов задаются в квадратных скобках через index, как в примере ниже:

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Индексы помогают обращаться к элементам серии и менять их значения. Например, чтобы в нашей серии [5, 6, 7, 8, 9, 10] заменить значения некоторых элементов на 0, мы прописываем индексы нужных элементов и указываем, что они равны нулю:

Для чего нужна библиотека pandas. Смотреть фото Для чего нужна библиотека pandas. Смотреть картинку Для чего нужна библиотека pandas. Картинка про Для чего нужна библиотека pandas. Фото Для чего нужна библиотека pandas

Можно сделать выборку по нескольким индексам, чтобы ненужные элементы в серии не отображались:

Pandas DataFrame — это двумерный массив, похожий на таблицу/лист Excel (кстати, данные из Excel можно читать с помощью команды pandas.read_excel(‘file.xls’)). В нем можно проводить такие же манипуляции с данными: объединять в группы, сортировать по определенному признаку, производить вычисления. Как любая таблица, датафрейм состоит из столбцов и строк, причем столбцами будут уже известные объекты — Series.

Чтобы проверить, действительно ли серии — это части датафрейма, можно извлечь любую колонку из таблицы. Возьмем набор данных о нескольких странах СНГ, их площади и населении и выберем колонку country:

… ‘country’: [‘Kazakhstan’, ‘Russia’, ‘Belarus’, ‘Ukraine’],

… ‘population’: [17.04, 143.5, 9.5, 45.5],

… ‘square’: [2724902, 17125191, 207600, 603628]

country population square

0 Kazakhstan 17.04 2724902

1 Russia 143.50 17125191

2 Belarus 9.50 207600

3 Ukraine 45.50 603628

В итоге получится простая серия, в которой сохранятся те же индексы по строкам, что и в исходном датафрейме.

Name: country, dtype: object

Аналитика данных с нуля

Получите востребованные навыки и освойте профессию аналитика данных за 6 месяцев. Дополнительная скидка 5% по промокоду BLOG.

Кроме этого, у датафрейма есть индексы по столбцам, которые задаются вручную. Для простоты написания кода обозначим страны индексами из двух символов: Kazakhstan — KZ, Russia — RU и так далее:

… ‘country’: [‘Kazakhstan’, ‘Russia’, ‘Belarus’, ‘Ukraine’],

… ‘population’: [17.04, 143.5, 9.5, 45.5],

… ‘square’: [2724902, 17125191, 207600, 603628]

country population square

KZ Kazakhstan 17.04 2724902

RU Russia 143.50 17125191

BY Belarus 9.50 207600

UA Ukraine 45.50 603628

>>> df.index = [‘KZ’, ‘RU’, ‘BY’, ‘UA’]

>>> df.index.name = ‘Country Code’

country population square

KZ Kazakhstan 17.04 2724902

RU Russia 143.50 17125191

BY Belarus 9.50 207600

UA Ukraine 45.50 603628

>>> df.loc[[‘KZ’, ‘RU’], ‘population’]

Name: population, dtype: float64

Также в DataFrame производят математические вычисления. Например, рассчитаем плотность населения каждой страны в нашем датафрейме. Данные в колонке population (численность населения) делим на square (площадь) и получаем новые данные в колонке density, которые показывают плотность населения:

>>> df[‘density’] = df[‘population’] / df[‘square’] * 1000000

country population square density

KZ Kazakhstan 17.04 2724902 6.253436

RU Russia 143.50 17125191 8.379469

BY Belarus 9.50 207600 45.761079

UA Ukraine 45.50 603628 75.377550

Data Science с нуля

Закрепите навыки Data Science и получите перспективную профессию за 13 месяцев. Дополнительная скидка 5% по промокоду BLOG.

Чтение и запись данных

Доступ по индексу в DataFrame

>>> df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],

Name: viper, dtype: int64

2 1000 2000 3000 4000

Name: 0, dtype: int64

Группировка и агрегирование данных

Обратите внимание на as_index=False, эта часть кода отвечает за то, чтобы сохранить числовые индексы в результатах группировки и вычисления.

Сводные таблицы в Pandas

Для примера возьмем условный набор данных с простыми категориями one / two, small / large и числовыми значениями. В столбце A две категории foo / bar складываются в слово foobar — текст, который используется в программировании для условного обозначения. В этом случае он указывает, что мы делим данные на две группы по неопределенному признаку.

0 foo one small 1 2

1 foo one large 2 4

2 foo one large 2 5

3 foo two small 3 5

4 foo two small 3 6

5 bar one large 4 6

6 bar one small 5 8

7 bar two small 6 9

8 bar two large 7 9

>>> table = pd.pivot_table(df, values=’D’, index=[‘A’, ‘B’],

Мы разбиваем данные на две категории: bar и foo, в каждой из них будут подгруппы со значениями one и two, которые в свою очередь делятся на small и large. В сводной таблице мы вычисляем, сколько объектов будет в каждой группе. Для этого используем методы values, index, columns и aggfunc:

Аналитика данных с нуля

Получите востребованные навыки и освойте профессию аналитика данных за 6 месяцев. Дополнительная скидка 5% по промокоду BLOG.

Визуализация данных в Pandas

Дата-аналитики составляют наглядные графики с помощью Pandas и библиотеки Matplotlib. В этой связке Pandas отвечает за вычислительную часть работы, а вспомогательная библиотека «создает» картинку.

Посмотрим на данные о продажах в одной из компаний:

В таблице видно, что одни пользователи совершили уже более 7 000 покупок, а некоторые — сделали первую. Чтобы увидеть подробную картину, составляем график sns.distplot. На горизонтальной оси будет отображаться число покупок на одного покупателя, а на вертикальной — количество покупателей, которые совершили именно столько покупок в этой компании. Так по графику можно определить, что самой многочисленной оказалась группа клиентов, которая совершила всего несколько покупок, а группа постоянных клиентов немногочисленная.

distplot — это график, который визуализирует гистограммы, то есть распределяет данные по столбцам. Каждому столбцу соответствует доля количества объектов в данной группе. Также distplot показывает плотность распределения — плавный линейный график, в котором самая высокая точка указывает на наибольшее количество объектов.

Кроме этого, в Pandas есть другие виды графиков:

Например, можно отследить взаимосвязь между тем, сколько минут посетитель проводит в торговом центре и сколько магазинов успевает посетить за это время: кто-то за 30 минут успеет зайти в 5 бутиков, а кто-то обойдет 16. При этом каждый посетитель на графике будет отображаться отдельной точкой.

Data Science с нуля

Закрепите навыки Data Science и получите перспективную профессию за 13 месяцев. Дополнительная скидка 5% по промокоду BLOG.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *