Для чего используется точечная диаграмма
Все, что вам нужно знать о точечных диаграммах для визуализации данных
Дата публикации Jan 29, 2019
Если вы специалист по данным, нет сомнений, что вы раньше работали с точечными графиками. Несмотря на свою простоту, точечные диаграммы являются мощным инструментом для визуализации данных. Существует множество опций, гибкости и репрезентативности, которые обеспечиваются простым изменением нескольких параметров, таких как цвет, размер, форма и регрессионное построение.
Здесь вы узнаете практически все, что вам нужно знать о визуализации данных с помощью точечных графиков! Мы собираемся просмотреть все параметры и посмотреть, когда и как использовать их с кодом. Вы можете просто найти несколько приятных сюрпризов и уловок, которые вы можете добавить в свой инструментарий Data Science!
Построение регрессии
Когда мы впервые наносим наши данные на точечную диаграмму, это уже дает нам хороший быстрый обзор наших данных. На крайне левом рисунке ниже мы уже видим группы, в которых большая часть данных, по-видимому, объединяется и может быстро выделить выбросы.
Но также приятно видеть, насколько сложной может стать наша задача; мы можем сделать это с помощью регрессионного построения. На средней фигуре ниже мы сделали линейный график. Довольно легко увидеть, что линейная функция не будет работать, так как многие точки находятся довольно далеко от линии. Крайне правая особенность использует полином порядка 4 и выглядит гораздо более многообещающе. Похоже, что нам определенно понадобится что-то, по крайней мере, порядка 4, чтобы смоделировать этот набор данных.
Цвет и форма
На рисунке слева ниже показаны классы, сгруппированные по цвету; на рисунке справа показаны классы, разделенные по цвету и форме. В обоих случаях гораздо легче увидеть группировку, чем когда у нас все было синим! Теперь мы знаем, что, вероятно, будет легко отделитьsetosaкласс с низкой ошибкой и что мы должны сосредоточить наше внимание и выяснить, как отделить два других друг от друга. Также ясно, что один линейный график не сможет разделить зеленую и оранжевую точки; нам нужно что-то более масштабное.
Выбор между цветом и формой становится вопросом предпочтения. Лично я нахожу цвет немного более четким и интуитивно понятным, но выбирайте сами!
Маргинальная гистограмма
Scatter участки смаргинальные гистограммыэто те, которые построили гистограммы сверху и сбоку, представляющие распределение точек для объектов вдоль осей x и y. Это небольшое дополнение, но оно отлично подходит для точного определения распределения наших точек и более точного определения наших выбросов.
Например, на рисунке ниже мы видим, что ось почему имееточеньтяжелая концентрация очков около 3,0. Насколько концентрирован? Это наиболее легко увидеть на гистограмме в крайнем правом углу, которая показывает, что вокруг 3.0 есть как минимум втрое больше точек, чем для любого другого дискретного диапазона. Мы также видим, что едва ли есть какие-либо точки выше 3,75 по сравнению с другими диапазонами. Для оси X, с другой стороны, все немного более равномерно, за исключением крайних правых выбросов.
Пузырьковые участки
Здесь мы используемцвет, положение и размер.Положение определяет рост и вес человека, цвет определяет пол, а размер определяет количество съеденной картошки фри! Пузырьковый график позволяет нам удобно объединить все атрибуты в один график, чтобы мы могли видеть информацию большого размера в простом 2D-виде; ничего безумного сложного.
Нравится учиться?
Следуй за мной пощебетгде я публикую все о новейших и лучших ИИ, технологиях и науке! Связаться со мной наLinkedInслишком!
Рекомендуемое чтение
И просто напоследок, я поддерживаю этот блог с помощью партнерских ссылок Amazon на замечательные книги, потому что обмен отличными книгами помогает всем! Как партнер Amazon я зарабатываю на соответствующих покупках.
Точечная диаграмма в Excel с примером применения и настройки
С помощью точечной диаграммы в Excel можно изобразить данные, расположенные в столбцах и строках. График этого типа показывает отношения между числами в нескольких рядах данных или две группы значений как один ряд координат х и у.
Где используется точечная диаграмма
В точечной диаграмме одни значения выводятся вдоль горизонтальной оси Х, другие – вертикальной оси У. Эти числовые значения объединяются в точку. А точки выводятся через неравные промежутки или кластеры.
С помощью точечных диаграмм хорошо сравнивать и отображать научную, статистическую или техническую информацию. Подобные графики рекомендуются при следующих условиях:
С помощью точечной диаграммы можно сравнивать сразу много точек без учета времени. Сравнение будет тем точнее, чем больше значений будет использовано.
Как построить точечную диаграмму в Excel
Возьмем примерный набор данных, которые нужно нанести на точечную диаграмму:
Точечная диаграмма отличается от других типов способом отображения показателей по горизонтальной оси. Средняя продолжительность разговора с клиентом из первого столбца показана в виде значений Х. Количество контрактов из второго столбца – в виде значений Y. То есть один набор числовых данных всегда формируется вдоль горизонтальной оси значений. А второй набор – вдоль вертикальной оси, тоже значений.
На пересечении координат – точка данных, которая объединяет два числовых значения. В нашем примере первая точка данных на рисунке представлена значением Y (16, ячейка В8) и значением Х (2, А8). Получилась точечная диаграмма связи показателей.
Подтипы точечной диаграммы
Таким образом, числовые значения отображаются на точечной диаграмме в виде единых точек данных. Интервалы могут быть равномерными и неравномерными. Горизонтальная ось – всегда ось значений. Набор параметров для ее шкалы не ограничен (по сравнению с осью категорий).
Точечную диаграмму удобно использовать для демонстрации связи между данными, находящимися в разных рядах. Их можно показать в виде одной последовательности точек.
Диаграммы Excel — точечная диаграмма (XY)
Точечные (XY) диаграммы обычно используются для отображения и сравнения числовых значений, таких как научные, статистические и технические данные.
Точечная диаграмма имеет две оси значений —
Он объединяет значения x и y в отдельные точки данных и отображает их с нерегулярными интервалами или кластерами.
Рассмотрите возможность использования точечной диаграммы, когда —
Вы хотите изменить масштаб горизонтальной оси.
Вы хотите сделать эту ось логарифмической шкалой.
Значения для горизонтальной оси распределены неравномерно.
На горизонтальной оси много точек данных.
Вы хотите настроить шкалы независимых осей точечной диаграммы, чтобы получить больше информации о данных, которые включают пары или сгруппированные наборы значений.
Вы хотите показать сходство между большими наборами данных вместо различий между точками данных.
Вы хотите сравнить множество точек данных независимо от времени.
Чем больше данных вы включите в точечную диаграмму, тем лучше будет сравнение.
Вы хотите изменить масштаб горизонтальной оси.
Вы хотите сделать эту ось логарифмической шкалой.
Значения для горизонтальной оси распределены неравномерно.
На горизонтальной оси много точек данных.
Вы хотите настроить шкалы независимых осей точечной диаграммы, чтобы получить больше информации о данных, которые включают пары или сгруппированные наборы значений.
Вы хотите показать сходство между большими наборами данных вместо различий между точками данных.
Вы хотите сравнить множество точек данных независимо от времени.
Чем больше данных вы включите в точечную диаграмму, тем лучше будет сравнение.
Следуйте приведенным ниже инструкциям, чтобы вставить точечную диаграмму в свой рабочий лист.
Шаг 1 — Расположите данные в столбцах или строках на листе.
Шаг 2. Поместите значения x в одну строку или столбец, а затем введите соответствующие значения y в соседние строки или столбцы.
Шаг 3 — Выберите данные.
Шаг 4 — На вкладке ВСТАВИТЬ в группе Диаграммы щелкните значок точечной диаграммы на ленте.
Создание и использование точечной диаграммы
В этом разделе
Точечная диаграмма применяется для определения степени, с которой две числовые переменные влияют друг на друга. По оси х откладывается независимая переменная, а по оси y – зависимая переменная.
Точечная диаграмма может ответить на такие вопросы о ваших данных, Каково отношение между переменными? Как распределены данные? Где находятся выбросы?
Примеры
На примерах ниже показаны диаграммы рассеяния, использующие две, три переменные или бины.
Две переменные
Департаментом общественных работ было замечено увеличение утечек в водопроводных сетях. Департаменту требуется узнать, каково влияние общей длины труб на количество протечек, по сравнению с влиянием таких свойств труб, как их возраст и длина контура. Для отображения отношения общего числа протечек к длине труб в каждой зоне можно использовать точечную диаграмму.
Управление общественных сооружений хочет получить информацию о том, существует ли какая-то разница в состоянии труб, обследованных в разное время года. С использованием опции Окрасить по можно отобразить точки уникальными для каждого значения заданного поля цветами.
Приведенная выше диаграмма рассеяния показывает, что большинство исследований труб было выполнено в апреле.
Добавляет третью переменную.
Департаментом общественных работ было замечено увеличение утечек в водопроводных сетях. Департаменту требуется узнать, каково влияние общей длины труб на количество протечек, по сравнению с влиянием таких свойств труб, как их диаметр и возраст. Департамент также хочет определить, есть ли связь между количеством утечек или длиной труб и суточных расходов на них (включая стоимость установки, обслуживания и ремонта и связанные с потерями ресурсов в результате утечек издержки). Точечная диаграмма с пропорциональными символами может использоваться для показа зависимости общего количества утечек от длины труб в каждой зоне, причем, размер точек будет соответствовать ежедневным расходам на водопровод.
Подсказка:
Перетащите числовое поле на вашу страницу и поместите его на точечную диаграмму, чтобы диаграмма приобрела градуированные символы.
Управление общественных сооружений хочет получить информацию о том, существует ли какая-то разница в состоянии труб, обследованных в разное время года. С использованием опции Окрасить по можно отобразить точки уникальными для каждого значения заданного поля цветами.
Приведенная выше диаграмма рассеяния показывает, что большинство исследований труб было выполнено в апреле.
Визуализация с помощью бинов
ГИС-аналитик работает на сообщество специалистов и хочет выяснить, в каких штатах находятся самые высокорейтинговые учебные заведения. Он начинает свой анализ с создания диаграммы рассеяния, показывающей стоимость обучения в колледже и средний заработок после окончания учебы. Эта диаграмма показывает положительные отношения, но точки распределены слишком плотно, чтобы выявить какие-то другие закономерности.
Создание точечной диаграммы
Для создания точечной диаграммы выполните следующие шаги:
Подсказка:
Вы можете выполнять поиск полей с помощью строки поиска в панели данных.
Подсказка:
Также можно построить диаграммы с помощью меню Диаграмма над панелью данных или кнопки Тип визуализации на существующей карточке. В меню Диаграммы будут доступны только диаграммы, которые применимы к имеющейся выборке данных. В меню Тип визуализации будут только подходящие варианты визуализаций (карты, диаграммы или таблицы).
Примечания по использованию
На вкладке Легенда отображаются символы и значения диаграммы. Чтобы поменять цвет, связанный со значением, щелкните символ и выберите на палитре нужный цвет, либо введите его шестизначный код (доступно при применении переменной Цвет по ). Кнопка Всплывающая легенда
позволяет отобразить легенду как отдельную карточку на странице. Вкладку Легенда можно использовать для выбора объектов на диаграмме.
Вкладка Стиль используется для настройки следующих свойств символа:
Вычисляет экспоненциальную (восходящую) кривую наибольшего соответствия модели нелинейного отношения данных (R 2 для линейной регрессии равно или близко к 0).
Вычисляет кривую наибольшего соответствия для нелинейного отношения данных (R 2 для линейной регрессии равно или близко к 0). По умолчанию для вычисления используется уравнение полинома второй степени. Можно использовать уравнение полинома третьей или четвертой степени.
Вы можете добавить третью числовую переменную или переменную доля/отношение к вашей точечной диаграмме, если выберите поле на панели данных и перетащите его в карточку с построенной точечной диаграммой (недоступно для точечной диаграммы с символами бинов). В результате получится точечная диаграмма с пропорциональными символами, где размер точек представляет величину данных третей переменной.
Используйте кнопку Переключить оси для переключения переменных по осям x и y.
Нажмите кнопку Тип визуализации , чтобы переключаться между точечной диаграммой и другими вариантами визуализации, например, карточкой KPI или суммарной таблицей.
Используйте кнопку Перевернуть карточку , чтобы посмотреть обратную сторону карточки. Вкладка Информация о карточке
предоставляет информацию о данных на карточке, а вкладка Экспорт данных
позволяет пользователям экспортировать данные с карточки.
Ограничения
Бинированные точечный диаграммы недоступны для некоторых удаленных векторных слоев. Если удаленный векторный слой не поддерживает бинированные точечные диаграммы, можно скопировать слой в рабочую книгу и создать бинированную точечную диаграмму с помощью копии.
Как визуализировать данные: виды графиков
Визуализация числовых значений позволяет сделать понятными даже сложные наборы данных. Графики и диаграммы привлекают больше аудитории, чем обычный текст или скучные таблицы, и увеличивают вовлеченность читателей. Визуальная информация намного лучше воспринимается и запоминается, что помогает быстро и эффективно донести до аудитории ваши мысли и идеи.
В этой статье разберем основные виды графиков и поговорим о том, каких правил следует придерживаться при визуализации данных.
Типы графиков
Вид диаграммы необходимо выбирать в зависимости от того, какие данные вы хотите визуализировать и с какой целью: чтобы сравнить различные показатели или продемонстрировать, как распределяются данные, скажем, какие значения встречаются чаще, а какие реже.
Также на диаграмме можно наглядно показать структуру чего-либо при помощи данных или проследить взаимосвязь показателей.
Типов диаграмм насчитывается несколько десятков, и в рамках одной статьи описать их все не представляется возможным. Мы рассмотрим наиболее часто используемые виды графиков и разберемся, для отображения каких данных лучше всего подходит каждый их них.
Графики, о которых далее пойдет речь, можно легко создать в таких программах, как Microsoft Word, Excel, PowerPoint и Visio (а также их бесплатных аналогах), приложениях iWork (для iOS и macOS) и онлайн-сервисе Canva.
Линейный график
Линейный график (или линейная диаграмма) показывает динамику по одному либо нескольким показателям. Его удобно применять, когда нужно сравнить, как меняются с течением времени разные наборы данных.
Данные на таком графике отображаются в виде точек, которые соединены линиями. Также точки могут быть невидимыми, тогда график представляет собой ломаные линии. Кроме того, существует такая разновидность, как график рассеяния или точечная диаграмма, на котором точки изображаются без линий. Данный тип графика помогает найти взаимосвязь между двумя показателями.
Линейные диаграммы целесообразно применять, если число значений в ряду велико. Они удобны, когда требуется отобразить общую тенденцию развития каких-либо явлений, сравнить темпы роста и т.п.
На такой диаграмме данные категорий равномерно распределены вдоль горизонтальной оси, а все значения отображаются вдоль вертикальной оси. Графики позволяют показать непрерывное изменение данных за определенный период времени, поэтому они прекрасно подходят для представления тенденций изменения данных с равными временными интервалами, такими как месяцы, кварталы или годы.
Диаграммы-области
Диаграмма с областями представляет собой линейную диаграмму, в которой область ниже линии заполнена индивидуальным цветом или текстурой. Так же, как и линейные графики, диаграммы-области используются для отображения развития количественных значений в каком-то определенном интервале или за определенный временной период, но отличаются от графиков тем, что позволяют оценить вклад каждого элемента в рассматриваемый процесс.
Линейчатые диаграммы
Линейчатые (полосчатые) диаграммы, которые также называют столбчатыми (столбиковыми), являются наиболее часто используемым типом диаграмм.
Они могут применяться для сравнения разных значений в тех случаях, когда важны конкретные числовые показатели. На одной оси столбиковой диаграммы представлены сравниваемые категории, а на другой – шкала числовых значений.
Полосчатые диаграммы позволяют пользователю легко сравнить отдельные значения для разных категорий либо сравнивать изменения значений за какой-то период времени для определенной категории. Статистические показатели в таких диаграммах могут быть представлены как вертикальными, так и горизонтальными столбиками. Для изображения величины параметра используется высота или длина столбика.
Кроме прямоугольников, поверхность таких диаграмм может представлять собой треугольники, трапеции и другие фигуры.
Горизонтальные линейчатые диаграммы обычно используются, когда необходимо сравнить множество различных показателей или визуально обозначить явное превосходство одного из них. Вертикальные столбцы целесообразно использовать для изменения показателей в разные периоды времени, к примеру, ежегодной прибыли компании за несколько лет.
Гистограммы
Гистограмма и столбиковая диаграмма визуально схожи, разница же заключается в том, что гистограмма показывает распределение данных в рамках непрерывного интервала либо конкретного периода времени. На вертикальной оси гистограмм отображается частотность, а на горизонтальной показаны интервалы или временной период.
Гистограммы помогают визуально определить концентрацию значений, а также предельные значения или наличие пробелов либо отклонений.
Гистограмма с несколькими осями
Представляет собой сочетание столбиковой диаграммы и линейного графика с двумя осями Y и с одной осью X, на которой показаны категории данных. Такой вариант может понадобиться, когда нужно представить два или более фактора и выявить параллели или сравнения.
Круговые диаграммы
Круговые (секторные) диаграммы показывают долю каждой величины в общем объеме. Круг представляет всю совокупность данных, а относительная величина каждого отдельного значения изображается в виде сектора круга. Площадь секторов при этом соответствует вкладу этого параметра в сумму значений.
Круговые диаграммы наглядно демонстрируют, какую часть от общего количества составляют отдельные значения. Сектора могут отображаться в общем круге, а также могут быть расположены отдельно на небольшом расстоянии друг от друга.
Географические диаграммы
Картодиаграмма являет собой сочетание диаграммы с географической картой или схемой. Ее используют, когда нужно отобразить распределение определенного показателя по регионам, странам, материкам, выделенным разным цветом, оттенками или рисунками в соответствии с переменными данных. На примере диаграммы, приведенной ниже, можно увидеть, что цвет для каждого региона определяется в зависимости от плотности населения.
Если необходимо отобразить на карте данные по дополнительным показателям, это делается с помощью добавления микрографики: круговых диаграмм или столбиков.
Правила визуализации данных
Чтобы графики и диаграммы были понятны читателям, при их построении нужно соблюдать следующие рекомендации:
И еще пара советов: не используйте разные виды графиков и диаграмм для однотипных данных. Читателю требуется время, чтобы привыкнуть к каждому новому виду диаграммы и понять, что обозначает определенная линия или столбик, поэтому всегда выбирайте одинаковые диаграммы для данных одного типа. Кроме того, следует придерживаться одной цветовой гаммы в одном отчете или презентации. Хорошее решение – использование цветов вашего корпоративного стиля.