Если медиана ниже среднего что это значит

Блог об аналитике, визуализации данных, data science и BI

Дашборд первых 8 месяцев жизни малыша

Анализ рынка вакансий аналитики и BI: дашборд в Tableau

Анализ альбомов Земфиры: дашборд в Tableau

Гайд по современным BI-системам

Различия между медианой и средним арифметическим как целевым показателем анализа данных

В сегодняшней статье мы бы хотели осветить простую, но в то же время важную тему выбора простой метрики для оценки того или иного датасета. Со средним арифметическим все давным давно знакомы, чуть ли не каждый школьник отлично знает, что нужно просуммировать все имеющиеся значения, поделить на их количество и получить среднее значение. В школьные знания не входят никакие альтернативные варианты, которых, на самом деле, в статистике много — на любой вкус и случай. Однако, в решении исследовательских и маркетинговых задач люди часто берут именно эту метрику за основу. Правомерно ли это или есть более удачный вариант? Давайте разбираться.

Для начала стоит вспомнить определения двух метрик, о которых мы сегодня поговорим.
Среднее — самый популярный статистический показатель, который используется для измерения центра данных. А что же такое медиана? Медиана — значение, которое разбивает данные, отсортированные по порядку увеличения значений, на две равные части. Это значит, что медиана показывает центральное значение в выборке, если наблюдений нечетное количество и среднее арифметическое двух значений, если количество наблюдений в выборке четно.

Исследовательские задачи

Итак, оценка среднего значения выборки — зачастую важна во многих исследовательских вопросах. Например, специалисты, изучающие демографию часто задаются вопросом изменения численности регионов России, чтобы проследить за динамикой и отразить это в отчетностях. Давайте попробуем рассчитать среднюю численность региона России, а также медиану, а затем сравним полученные результаты.
Для начала, нужно найти и загрузить данные, подключив для этого библиотеку pandas.

Затем, нужно посчитать среднее и медиану выборки.

Значения, естественно, получились разными, так как распределение наблюдений в выборке отлично от нормального. Для того, чтобы понять, сильно ли они отличаются, построим график распределения и отметим среднее и медиану.

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Также, на этих данных стоит построить боксплот для более точной визуализации основных квантилей распределения, медианы, среднего и выбросов.

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Из графиков следует, что медиана существенно меньше среднего, а также, ясно, что это следствие наличия больших выбросов — Москвы и Санкт-Петербурга. Поскольку среднее арифметическое — метрика крайне чувствительная к выбросам — при их наличии в выборке опираться на выводы относительно среднего не стоит. Рост или снижение численности населения Москвы может сильно смещать среднюю численность по России, однако это не будет влиять на настоящий общерегиональный тренд.
Используя среднее арифметическое мы скажем, что численность типичного (среднего) города в РФ — 268 тысяч человек. Однако, это вводит нас в заблуждение, так как среднее значительно превышает медиану исключительно из-за численности населения Москвы и Санкт-Петербурга. На самом деле, численность типичного российского города существенно меньше (аж в 2 раза!) и составляет 104 тысячи жителей.

Маркетинговые задачи

В контексте бизнеса разница между средним арифметическим и медианой также важна, так как использование неверной метрики может серьезно сказаться на результатах проведения акции или затруднить достижение цели. Давайте посмотрим на реальном примере, с какими трудностями может столкнуться предприниматель в ритейле, если неверно выберет целевую метрику.
Для начала, как и в предыдущем примере, загрузим датасет о покупках в супермаркете. Выберем необходимые для анализа столбцы датасета и переименуем их, для упрощения кода в дальнейшем. Поскольку эти данные не так хорошо подготовлены, как предыдущие, необходимо сгруппировать все купленные товары по чекам. В этом случае необходима группировка по двум переменным: по id покупателя и по дате покупки (дата и время определяется моментом закрытия чека, поэтому все покупки в рамках одного чека совпадают по дате). Затем, назовем полученный столбец «total_bill», то есть сумма чека и посчитаем среднее и медиану.

Теперь, как и в предыдущем примере нужно построить график распределения чеков покупателей и боксплот, а также отметить медиану и среднее арифметическое на каждом из них.

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Из графиков следует, что распределение смещено к началу координат (отличное от нормального), а значит медиана и среднее не равны. Медианное значение меньше среднего примерно на 220 рублей.
Теперь представим, что у маркетологов есть задача повысить средний чек покупателя. Маркетолог может решить, что поскольку средний чек равен 601 рублю, то можно предложить следующую акцию: «Всем покупателям, кто совершит покупку на 600 рублей, мы предоставляем скидку 20% на товар за 100 рублей». В целом, резонное предложение, однако, в реальности, средний чек ниже — 378 рублей. То есть большая часть покупателей не заинтересуется в предложении, поскольку их покупка обычно не достигает предложенного порога. Это значит. что они не воспользуются предложением и не получат скидку, а компания не сможет достичь поставленной цели и увеличить прибыль супермаркета. Все дело в том, что исходные предпосылки были ошибочны.

Выводы

Как вы уже поняли, среднее арифметическое зачастую показывает более значимый и приятный результат, как для бизнеса, так и для исследовательских задач, ведь руководству всегда выгоднее представить ситуацию со средним чеком или демографической ситуацией в стране лучше, чем она есть на самом деле. Однако, необходимо всегда помнить о недостатках такой метрики, как среднее арифметическое, чтобы уметь грамотно выбрать подходящий аналог для оценки той или иной ситуации.

Источник

Если медиана ниже среднего что это значит

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Сегодня разберем два понятия «среднее» и «медиана».

Для начала задам два вопроса: знакомы ли вы с понятием «медиана»? Знаете ли вы, в чем разница между средним и медианой? Скорее всего, если вы работаете с обзорами по рынку зарплат, вы встречали понятие медианы и чаще всего именно на этом ее применение и заканчивалось. Но я рекомендую использовать медиану и в других случаях.

Среднее – это самый популярный статистический показатель, который используется для измерения центра или середины данных. Среднее значение считается как сумма всех чисел, деленная на общее количество чисел. Это материал где-то пятого класса, поэтому тут пока все просто. Среднее значение в компаниях считают для стажа, возраста сотрудников, зарплаты по грейду, уровню должности, для подачи отчетности по статистическим данным. Считается с помощью функции в Excel: СРЗНАЧ или AVERAGE в английской версии.

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Среднее значение может быть не совсем объективным отражением данных, так как на него могут влиять выбросы (очень большие или очень маленькие значения в наборе данных).

Если вы считаете средний стаж работы сотрудников в компании при большой текучести, стаж до трех месяцев работы сотрудников будет занижать данные. Или наоборот, у вас есть сотрудники-старожилы, которые работают с основания компании. При учете их продолжительности стажа вы будете завышать данные, что тоже искажает отчетность.

Пример: рассчитать средний стаж работы сотрудников.

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Средний стаж составит 4 года.

Медиана – значение, которое делит отсортированные по возрастанию данных на две равные части. То есть медиана показывает середину ваших данных. Медиана считается как значение, расположенное по середине ряда отсортированных значений. Если в ряду находится нечетное количество данных, например, 5, то медианой будет третье значение. Если четное количество данных, например, 4, то медианой будет (значение 2+ значение 3)/2. То есть среднее значение двух показателей посередине.

Считается с помощью функции в Excel МЕДИАНА или MEDIAN в английской версии. Медиана лишена недостатков среднего значения, на нее не влияют выбросы.

Источник

Медиана в статистике

Центральную тенденцию данных можно рассматривать не только, как значение с нулевым суммарным отклонением (среднее арифметическое) или максимальную частоту (мода), но и как некоторую отметку (значение в совокупности), делящую ранжированные данные (отсортированные по возрастанию или убыванию) на две равные части. Половина исходных данных меньше этой отметки, а половина – больше. Это и есть медиана.

Итак, медиана в статистике – это уровень показателя, который делит набор данных на две равные половины. Значения в одной половине меньше, а в другой больше медианы. В качестве примера обратимся к набору нормально распределенных случайных чисел.

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Очевидно, что при симметричном распределении середина, делящая совокупность пополам, будет находиться в самом центре – там же, где средняя арифметическая (и мода). Это, так сказать, идеальная ситуация, когда мода, медиана и средняя арифметическая совпадают и все их свойства приходятся на одну точку – максимальная частота, деление пополам, нулевая сумма отклонений – все в одном месте. Однако, жизнь не так симметрична, как нормальное распределение.

Допустим, мы имеем дело с техническими замерами отклонений от ожидаемой величины чего-нибудь (содержания элементов, расстояния, уровня, массы и т.д. и т.п.). Если все ОК, то отклонения, скорее всего, будут распределены по закону, близкому к нормальному, примерно, как на рисунке выше. Но если в процессе присутствует важный и неконтролируемый фактор, то могут появиться аномальные значения, которые в значительной мере повлияют на среднюю арифметическую, но при этом почти не затронут медиану.

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Медиана выборки – это альтернатива средней арифметической, т.к. она устойчива к аномальным отклонениям (выбросам).

Математическим свойством медианы является то, что сумма абсолютных (по модулю) отклонений от медианного значения дает минимально возможное значение, если сравнивать с отклонениями от любой другой величины. Даже меньше, чем от средней арифметической, о как! Данный факт находит свое применение, например, при решении транспортных задач, когда нужно рассчитать место строительства объектов около дороги таким образом, чтобы суммарная длина рейсов до него из разных мест была минимальной (остановки, заправки, склады и т.д. и т.п.).

Формула медианы

Формула медианы в статистике для дискретных данных чем-то напоминает формулу моды. А именно тем, что формулы как таковой нет. Медианное значение выбирают из имеющихся данных и только, если это невозможно, проводят несложный расчет.

Первым делом данные ранжируют (сортируют по убыванию). Далее есть два варианта. Если количество значений нечетно, то медиана будет соответствовать центральному значению ряда, номер которого можно определить по формуле:

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Me – номер значения, соответствующего медиане,

N – количество значений в совокупности данных.

Тогда медиана обозначается, как

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Это первый вариант, когда в данных есть одно центральное значение. Второй вариант наступает тогда, когда количество данных четно, то есть вместо одного есть два центральных значения. Выход прост: берется средняя арифметическая из двух центральных значений:

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

В интервальных данных выбрать конкретное значение не представляется возможным. Медиану рассчитывают по определенному правилу.

Для начала (после ранжирования данных) находят медианный интервал. Это такой интервал, через который проходит искомое медианное значение. Определяется с помощью накопленной доли ранжированных интервалов. Где накопленная доля впервые перевалила через 50% всех значений, там и медианный интервал.

Не знаю, кто придумал формулу медианы, но исходили явно из того предположения, что распределение данных внутри медианного интервала равномерное (т.е. 30% ширины интервала – это 30% значений, 80% ширины – 80% значений и т.д.). Отсюда, зная количество значений от начала медианного интервала до 50% всех значений совокупности (разница между половиной количества всех значений и накопленной частотой предмедианного интервала), можно найти, какую долю они занимают во всем медианном интервале. Вот эта доля аккурат переносится на ширину медианного интервала, указывая на конкретное значение, именуемое впоследствии медианой.

Обратимся к наглядной схеме.

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Немного громоздко получилось, но теперь, надеюсь, все наглядно и понятно. Чтобы при расчете каждый раз не рисовать такой график, можно воспользоваться готовой формулой. Формула медианы имеет следующий вид:

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

где xMe — нижняя граница медианного интервала;

iMe — ширина медианного интервала;

∑f/2 — количество всех значений, деленное на 2 (два);

S(Me-1)— суммарное количество наблюдений, которое было накоплено до начала медианного интервала, т.е. накопленная частота предмедианного интервала;

fMe — число наблюдений в медианном интервале.

Как нетрудно заметить, формула медианы состоит из двух слагаемых: 1 – значение начала медианного интервала и 2 – та самая часть, которая пропорциональна недостающей накопленной доли до 50%.

Для примера рассчитаем медиану по следующим данным.

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Требуется найти медианную цену, то есть ту цену, дешевле и дороже которой по половине количества товаров. Для начала произведем вспомогательные расчеты накопленной частоты, накопленной доли, общего количества товаров.

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

По последней колонке «Накопленная доля» определяем медианный интервал – 300-400 руб (накопленная доля впервые более 50%). Ширина интервала – 100 руб. Теперь остается подставить данные в приведенную выше формулу и рассчитать медиану.

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

То есть у одной половины товаров цена ниже, чем 350 руб., у другой половины – выше. Все просто. Средняя арифметическая, рассчитанная по этим же данным, равна 355 руб. Отличие не значительное, но оно есть.

Расчет медианы в Excel

Медиану для числовых данных легко найти, используя функцию Excel, которая так и называется — МЕДИАНА. Другое дело интервальные данные. Соответствующей функции в Excel нет. Поэтому нужно задействовать приведенную выше формулу. Что поделаешь? Но это не очень трагично, так как расчет медианы по интервальным данным – редкий случай. Можно и на калькуляторе разок посчитать.

Напоследок предлагаю задачку. Имеется набор данных. 15, 5, 20, 5, 10. Каково среднее значение? Четыре варианта:

Мода, медиана и среднее значение выборки – это разный способ определить центральную тенденцию в выборке.

Ниже видеоролик о том, как рассчитать медиану в Excel.

Источник

Если медиана ниже среднего что это значит

Сравнение погрешностей приборов критерием Манна-Уитни на сервисе Статзиллы показало, что средний уровень погрешностей двух приборов статистически значимо различается (уровень статистической значимости р=0,02). При этом, среднее арифметическое ошибки прибора А равно 14,6 мм.рт.ст., но и у прибора Б оно также составило 14,6 мм.рт.ст…Какой из приборов статистически лучше?

Ниже приведены результаты расчета значимости различий по Манну-Уитни:

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Во-вторых, медиана оценивает среднее, нивелировав влияние выбросов. Но именно эта «сдержанность» медианы может скрыть из виду важные моменты, тогда как среднее арифметическое, завысив или занизив среднее, поможет обратить на них внимание. Так, в нашем примере 2 с погрешностью прибора, медиана говорит, что прибор Б измеряет давление в среднем точнее. Но высокое среднее арифметическое и сами данные указывают на внушительные выбросы – 30 и 90 мм.рт.ст. Очень важно разобраться с ними и понять, чем вызваны такие аномально высокие ошибки измерений.

В-третьих, что бы вы ни решили использовать, обязательно укажите, насколько эта оценка среднего уровня устойчива. Для этого можно использовать различные показатели: корень из дисперсии, ошибку среднего, квартили, минимум и максимум, доверительный интервал. Только совокупность описательных статистик даст полную картину о рассматриваемом показателе и позволит избежать нелепых ошибок, неверных выводов, страшных вопросов на защите и насмешек коллег 🙂

Источник

Что лучше использовать при анализе данных: среднее или медиану?

Сегодня разберем два понятия «среднее» и «медиана».

Для начала задам два вопроса: знакомы ли вы с понятием «медиана»? Знаете ли вы, в чем разница между средним и медианой? Скорее всего, если вы работаете с обзорами по рынку зарплат, вы встречали понятие медианы и чаще всего именно на этом ее применение и заканчивалось. Но я рекомендую использовать медиану и в других случаях.

Среднее – это самый популярный статистический показатель, который используется для измерения центра или середины данных. Среднее значение считается как сумма всех чисел, деленная на общее количество чисел. Это материал где-то пятого класса, поэтому тут пока все просто. Среднее значение в компаниях считают для стажа, возраста сотрудников, зарплаты по грейду, уровню должности, для подачи отчетности по статистическим данным. Считается с помощью функции в Excel: СРЗНАЧ или AVERAGE в английской версии.

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Минусы среднего показателя:

Среднее значение может быть не совсем объективным отражением данных, так как на него могут влиять выбросы (очень большие или очень маленькие значения в наборе данных).

Если вы считаете средний стаж работы сотрудников в компании при большой текучести, стаж до трех месяцев работы сотрудников будет занижать данные. Или наоборот, у вас есть сотрудники-старожилы, которые работают с основания компании. При учете их продолжительности стажа вы будете завышать данные, что тоже искажает отчетность.

Пример: рассчитать средний стаж работы сотрудников.

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Средний стаж составит 4 года.

Медиана – значение, которое делит отсортированные по возрастанию данных на две равные части. То есть медиана показывает середину ваших данных. Медиана считается как значение, расположенное по середине ряда отсортированных значений. Если в ряду находится нечетное количество данных, например, 5, то медианой будет третье значение. Если четное количество данных, например, 4, то медианой будет (значение 2+ значение 3)/2. То есть среднее значение двух показателей посередине.

Считается с помощью функции в Excel МЕДИАНА или MEDIAN в английской версии. Медиана лишена недостатков среднего значения, на нее не влияют выбросы.

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Если медиана ниже среднего что это значит. Смотреть фото Если медиана ниже среднего что это значит. Смотреть картинку Если медиана ниже среднего что это значит. Картинка про Если медиана ниже среднего что это значит. Фото Если медиана ниже среднего что это значит

Медиана стажа составит 3 года. Разница между 3 и 4 годами стажа работы все-таки есть.

Если нужно посчитать стаж, возраст, зарплату, считайте не среднее, а медиану. Ну или убирайте выбросы.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *