Дисперсия что это такое простыми словами

Дисперсия

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Полезное

Смотреть что такое «Дисперсия» в других словарях:

дисперсия — Рассеяние чего нибудь. В математике дисперсия определяет отклонение величин от среднего значения. Дисперсия белого света приводит к его разложению на составляющие. Дисперсия звука является причиной его расплывания. Рассеяние хранимых данных по… … Справочник технического переводчика

ДИСПЕРСИЯ — (от латинского dispersio рассеяние) волн, зависимость скорости распространения волн в веществе от длины волны (частоты). Дисперсия определяется физическими свойствами той среды, в которой распространяются волны. Например, в вакууме… … Современная энциклопедия

ДИСПЕРСИЯ — (variance) Мера разброса данных. Дисперсия множества из N членов находится путем сложения квадратов их отклонений от среднего значения и деления на N. Поэтому, если членами являются хi при i = 1, 2. N, a их средним является m, дисперсия… … Экономический словарь

Дисперсия — (от латинского dispersio рассеяние) волн, зависимость скорости распространения волн в веществе от длины волны (частоты). Дисперсия определяется физическими свойствами той среды, в которой распространяются волны. Например, в вакууме… … Иллюстрированный энциклопедический словарь

ДИСПЕРСИЯ — (от лат. dispersio рассеяние) в математической статистике и теории вероятностей мера рассеивания (отклонения от среднего). В статистике дисперсия есть среднее арифметическое из квадратов отклонений наблюденных значений (x1, x2. xn) случайной… … Большой Энциклопедический словарь

Дисперсия — в теории вероятностей наиболее употребительная мера отклонения от среднего (мера рассеяния). По английски: Dispersion Синонимы: Статистическая дисперсия Синонимы английские: Statistical dispersion См. также: Выборочные совокупности Финансовый… … Финансовый словарь

ДИСПЕРСИЯ — [лат. dispersus рассеянный, рассыпанный] 1) рассеяние; 2) хим., физ. раздробление вещества на очень малые частицы. Д. света разложение белого света с помощью призмы в спектр; 3) мат. отклонение от среднего. Словарь иностранных слов. Комлев Н.Г.,… … Словарь иностранных слов русского языка

дисперсия — (варианса) показатель разброса данных, соответственный среднему квадрату отклонения этих данных от средней арифметической. Равна квадрату стандартного отклонения. Словарь практического психолога. М.: АСТ, Харвест. С. Ю. Головин. 1998 … Большая психологическая энциклопедия

дисперсия — рассеяние, разброс Словарь русских синонимов. дисперсия сущ., кол во синонимов: 6 • нанодисперсия (1) • … Словарь синонимов

Дисперсия — [variance] характеристика рассеивания значений случайной величины, измеряемая квадратом их отклонений от среднего значения (обозначается d2). Различается Д. теоретического (непрерывного или дискретного) и эмпирического (также непрерывного и… … Экономико-математический словарь

Дисперсия — * дысперсія * dispersion 1. Рассеяние; разброс; вариация (см.). 2. Теоретико вероятностное понятие, характеризующее меру отклонения случайной величины от ее математического ожидания. В биометрической практике используется выборочная дисперсия s2 … Генетика. Энциклопедический словарь

Источник

Что такое дисперсия в статистике

Статистика, в частности, оперирует рядами данных, характеризующих какой-либо признак, явление. Интересует их изменение.

Вариация представляет собой отличие величин одинакового показателя у разных предметов. Ее изучение позволит понять причины отклонений от нормы, анализировать их и в какой-то мере прогнозировать. Также станет возможным выявить факторы, влияющие на значения, отсеяв случайные.

Характеристики равномерного распределения представлены на картинке:

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

При значительном объеме статистики, средняя величина очевидно близка к нормальной. Об этом говорят и законы распределения. Отклонения от нее будут являться объективной характеристикой.

Только вот отрицательные значения этих разбросов будут сбивать с толку при расчетах, погашая положительные. А оставлять лишь модули – для математика не корректно. Напрашивается возвести в четную степень, а именно – во вторую.

Решение оказалось не только удобным. Оно открыло бо́льшие возможности в изучении отклонений. А важны именно они, поскольку сама по себе средняя мало что дает.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

В качестве одного из важных показателей вариации, вводится понятие «дисперсия» – усредненный квадрат отклонений численных значений каких-либо событий от средней величины.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Никакого наглядного смысла величина не несет. Другое дело, среднее квадратическое отклонение – корень квадратный из дисперсии.

Виды дисперсии дискретной случайной величины

Для анализа данных цифр в таком виде недостаточно. Гораздо больше можно выжать из последовательности, если разбить ее на группы по определенному признаку.

Общая дисперсия

Как можно заметить, вычисленная по приведенному выше определению величина характеризует отклонения в целом. Без учета определяющих вариацию факторов. Вернее, с учетом всех, включая совершенно случайные. Поэтому и называется «общей» и рассчитывается по формулам, указанным ниже.

Простая дисперсия, без разделения на группы:

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Или в несколько преобразованном виде:

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Взвешенная дисперсия, для вариационного ряда:

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

где xi – значение из ряда;

fi – частота, количество повторений;

n – число вариантов.

Черта сверху указывает на среднюю величину.

Межгрупповая дисперсия

Характеризует систематическое отклонение, возникающее из-за фактора, по которому производилось выделение признаков в группы. Поэтому также называется «факторной».

Как найти данную дисперсию? По формуле:

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

где k – количество групп;

nj – элементов в группе с индексом j.

Внутригрупповая дисперсия

Возникает по хаотичной причине, не связанной с причиной сделанной выборки. Неучтенный фактор. Еще обозначается как «остаточная».

Например, рассматривается количество выпущенных деталей за месяц каждым фрезеровщиком цеха.

В качестве критерия отбора в группу выбираем возраст оборудования. Он-то и не будет влиять на производительность внутри подборки: там станки у всех практически одинаковые.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Если вычислить среднюю величину от всех групповых,

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

то получим характеристику случайного разброса. Иными словами, составляющую вариации, зависящую от чего угодно, кроме фактора отбора.

Взаимосвязь

В соответствии с правилом сложения, общая D[X] включает средние выражения остаточной и факторной. И это логично, поскольку учитывает и случайное изменение в группе, и систематическое в факторной.

Свойства дисперсии

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Если последовательность состоит из одинаковых чисел, то D[X] будет нулевой.

Уменьшение всех значений на постоянную величину на дисперсию не влияет. Иначе говоря, рассчитать σ 2 можно по отклонениям от фиксированного числа.

Уменьшение всех цифр в k раз приведет к падению D[X] в k 2 раз. Можно, например, иметь в виду значения в метрах, а результат вычислить в футах. Достаточно учесть один раз то, на что следует умножить.

Показатели вариаций

Кроме размаха (разницы максимального и минимального значений), среднего линейного и дисперсии, изменения описываются коэффициентом вариации:

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Оценить масштаб разброса проще по относительной величине. Тем более, что измеряются в одних единицах.

Пример расчета дисперсии

Компания объявила конкурсный отбор для приема сотрудников. В качестве критерия принят стаж работы по специальности. Приведем исходные данные и расчеты.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

По альтернативной формуле:

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Заключение

Статистика оперирует значительными объемами данных. Вариация, как одно из основных понятий – не исключение. И дисперсия в качестве основной характеристики.

Для упрощения расчетов существует масса онлайн калькуляторов. Имеется упомянутый инструмент в MS Excel.

Источник

Дисперсия, среднеквадратичное (стандартное) отклонение, коэффициент вариации в Excel

Из предыдущей статьи мы узнали о таких показателях, как размах вариации, межквартильный размах и среднее линейное отклонение. В этой статье изучим дисперсию, среднеквадратичное отклонение и коэффициент вариации.

Дисперсия

Дисперсия случайной величины – это один из основных показателей в статистике. Он отражает меру разброса данных вокруг средней арифметической.

Сейчас небольшой экскурс в теорию вероятностей, которая лежит в основе математической статистики. Как и матожидание, дисперсия является важной характеристикой случайной величины. Если матожидание отражает центр случайной величины, то дисперсия дает характеристику разброса данных вокруг центра.

Формула дисперсии в теории вероятностей имеет вид:

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

То есть дисперсия — это математическое ожидание отклонений от математического ожидания.

На практике при анализе выборок математическое ожидание, как правило, не известно. Поэтому вместо него используют оценку – среднее арифметическое. Расчет дисперсии производят по формуле:

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

s 2 – выборочная дисперсия, рассчитанная по данным наблюдений,

X – отдельные значения,

– среднее арифметическое по выборке.

Стоит отметить, что у такого расчета дисперсии есть недостаток – она получается смещенной, т.е. ее математическое ожидание не равно истинному значению дисперсии. Подробней об этом здесь. Однако при увеличении объема выборки она все-таки приближается к своему теоретическому аналогу, т.е. является асимптотически не смещенной.

Простыми словами дисперсия – это средний квадрат отклонений. То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат, складывается и затем делится на количество значений в данной совокупности. Разница между отдельным значением и средней отражает меру отклонения. В квадрат возводится для того, чтобы все отклонения стали исключительно положительными числами и чтобы избежать взаимоуничтожения положительных и отрицательных отклонений при их суммировании. Затем, имея квадраты отклонений, просто рассчитываем среднюю арифметическую. Средний – квадрат – отклонений. Отклонения возводятся в квадрат, и считается средняя. Теперь вы знаете, как найти дисперсию.

Расчет дисперсии в Excel

Генеральную и выборочную дисперсии легко рассчитать в Excel. Есть специальные функции: ДИСП.Г и ДИСП.В соответственно.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

В чистом виде дисперсия не используется. Это вспомогательный показатель, который нужен в других расчетах. Например, в проверке статистических гипотез или расчете коэффициентов корреляции. Отсюда неплохо бы знать математические свойства дисперсии.

Свойства дисперсии

Свойство 1. Дисперсия постоянной величины A равна 0 (нулю).

Свойство 2. Если случайную величину умножить на постоянную А, то дисперсия этой случайной величины увеличится в А 2 раз. Другими словами, постоянный множитель можно вынести за знак дисперсии, возведя его в квадрат.

Свойство 3. Если к случайной величине добавить (или отнять) постоянную А, то дисперсия останется неизменной.

Свойство 4. Если случайные величины X и Y независимы, то дисперсия их суммы равна сумме их дисперсий.

Свойство 5. Если случайные величины X и Y независимы, то дисперсия их разницы также равна сумме дисперсий.

Среднеквадратичное (стандартное) отклонение

Если из дисперсии извлечь квадратный корень, получится среднеквадратичное (стандартное) отклонение (сокращенно СКО). Встречается название среднее квадратичное отклонение и сигма (от названия греческой буквы). Общая формула стандартного отклонения в математике следующая:

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

На практике формула стандартного отклонения следующая:

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Как и с дисперсией, есть и немного другой вариант расчета. Но с ростом выборки разница исчезает.

Расчет cреднеквадратичного (стандартного) отклонения в Excel

Для расчета стандартного отклонения достаточно из дисперсии извлечь квадратный корень. Но в Excel есть и готовые функции: СТАНДОТКЛОН.Г и СТАНДОТКЛОН.В (по генеральной и выборочной совокупности соответственно).

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Среднеквадратичное отклонение имеет те же единицы измерения, что и анализируемый показатель, поэтому является сопоставимым с исходными данными.

Коэффициент вариации

Значение стандартного отклонения зависит от масштаба самих данных, что не позволяет сравнивать вариабельность разных выборках. Чтобы устранить влияние масштаба, необходимо рассчитать коэффициент вариации по формуле:

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

По нему можно сравнивать однородность явлений даже с разным масштабом данных. В статистике принято, что, если значение коэффициента вариации менее 33%, то совокупность считается однородной, если больше 33%, то – неоднородной. В реальности, если коэффициент вариации превышает 33%, то специально ничего делать по этому поводу не нужно. Это информация для общего представления. В общем коэффициент вариации используют для оценки относительного разброса данных в выборке.

Расчет коэффициента вариации в Excel

Расчет коэффициента вариации в Excel также производится делением стандартного отклонения на среднее арифметическое:

Коэффициент вариации обычно выражается в процентах, поэтому ячейке с формулой можно присвоить процентный формат:

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Коэффициент осцилляции

Еще один показатель разброса данных на сегодня – коэффициент осцилляции. Это соотношение размаха вариации (разницы между максимальным и минимальным значением) к средней. Готовой формулы Excel нет, поэтому придется скомпоновать три функции: МАКС, МИН, СРЗНАЧ.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Коэффициент осцилляции показывает степень размаха вариации относительно средней, что также можно использовать для сравнения различных наборов данных.

Таким образом, в статистическом анализе существует система показателей, отражающих разброс или однородность данных.

Ниже видео о том, как посчитать коэффициент вариации, дисперсию, стандартное (среднеквадратичное) отклонение и другие показатели вариации в Excel.

Источник

Значение слова дисперсия

Словарь Ушакова

дисп е рсия, дисперсии, мн. нет, жен. (лат. dispersio).

1. Расхождение световых лучей разного цвета при прохождении сквозь преломляющую среду (оптика).

2. Состояние большего или меньшего раздробления вещества (ест.).

Современный экономический словарь. 1999

величина, характеризующая степень разброса количественных измерений индивидуальных участников статистической выборки (случайных величин) относительно среднего значения для этой выборки.

Начала Современного Естествознания. Тезаурус

(от лат. — рассеяние) — в широком смысле — мера рассеяния, отклонение от среднего; широко используется в математической статистике и теории вероятностей.

Словарь экономических терминов

величина, характеризующая степень разброса количественных измерений индивидуальных участников статистической выборки (случайных величин) относительно среднего значения для этой выборки.

Глоссарий телекоммуникационных терминов

Увеличение ширины импульса сигнала при его распространении по оптоволокну. Основной фактор, ограничивающий полосу пропускания многомодового оптоволокна.

Краткий словарь современных тектонических терминов

расхождение, рассеяние фрагментов континентальных блоков после раскола, дробления последних.

Тезаурус русской деловой лексики

Энциклопедический словарь

Словарь Ефремовой

Энциклопедия Брокгауза и Ефрона

или светорассеяние (см.) — расхождение преломленных лучей сложного цвета или при образовании цветовых спектров вследствие интерференции в явлениях дифракции и др. случаях; расхождение оптических осей для лучей разного цвета в двуосных кристаллах.

Большая Советская Энциклопедия

(от лат. dispersio ≈ рассеяние), в математической статистике и теории вероятностей, наиболее употребительная мера рассеивания, т. е. отклонения от среднего. В статистическом понимании Д.

есть среднее арифметическое из квадратов отклонений величин xi от их среднего арифметического

В теории вероятностей Д. случайной величины Х называется математическое ожидание Е (Х ≈ mх)2 квадрата отклонения Х от её математического ожидания mх= Е (Х). Д. случайной величины Х обозначается через D (X) или через s2X. Квадратный корень из Д. (т. е. s, если Д. есть s2) называется средним квадратичным отклонением (см. Квадратичное отклонение ).

Для случайной величины Х с непрерывным распределением вероятностей, характеризуемым плотностью вероятности р (х), Д. вычисляется по формуле

Лит.: Гнеденко Б. В., Курс теории вероятностей, 5 изд., М., 1969.

Источник

7 базовых статистических понятий, необходимых дата-сайентисту

Даже если вы хорошо программируете, но слабо ориентируетесь в статистике, вероятность выжить в Data Science очень низка.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

У статистики есть несколько различных определений. Одно из самых простых и точных — это «наука о сборе и классификации цифровых данных». А если добавить к нему немного о программировании и машинном обучении, то получится неплохое описание основ Data Science.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

В самом деле, в Data Science трудно найти область, где нет статистики в том или ином виде. Она нужна для:

Мы выбрали семь базовых концепций, без которых в Data Science точно не обойтись. К счастью, они не слишком сложны.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

С некоторых пор утверждает, что он data scientist. В предыдущих сезонах выдавал себя за математика, звукорежиссёра, радиоведущего, переводчика, писателя. Кандидат наук, но не точных. Бесстрашно пишет о Data Science и программировании на Python.

1. Меры описательной статистики

Ключевые показатели, применяемые в описательной статистике (их ещё называют мерами или, если точнее, мерами центральной тенденции), — это:

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Посмотрите это небольшое видео о среднем, медиане и моде на сайте Академии Хана — образовательного ресурса, который славится доходчивыми объяснениями. Там всё просто, на понятном русском языке.

Кроме трёх перечисленных, есть и другие статистические показатели — например, меры рассеяния. Главная из них — дисперсия, о ней ниже. Все они нужны, чтобы понять, какие перед нами данные и о чём именно они рассказывают.

2. Распределение

Внешняя форма данных, выраженная в мерах описательной статистики, даёт нам информацию об их характере. Это как в жизни: по фигуре, походке и одежде человека обычно можно догадаться о его поле, возрасте и даже профессии. В случае числовых данных мы догадываемся о распределении.

Термин пришёл из теории вероятностей, которая рассматривает любое событие в мире как имеющее ту или иную вероятность. Однородные события хоть и происходят с разной вероятностью, но подчиняются распределению, которое «раздаёт» им эти вероятности.

В Data Science распределение понимается обобщённо: это закон соответствия одной величины другой. Оно подсказывает нам, какой именно процесс может скрываться за данными, и то, насколько эти данные полны. Чуть подробнее об этом в нашей статье про математику для джунов.

Возможно, вы уже слышали про колокол нормального распределения, или гауссиану: она описывает процессы, где результат является суммой многих случайных величин, каждая из которых слабо зависит от другой и вносит сравнительно небольшой вклад.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Величина ошибок измерения в физике, длина когтей, зубов и шерсти в биологии, объёмы речных стоков в гидрологии — все эти показатели имеют нормальное распределение. Это, пожалуй, самое распространённое в природе и не только в природе распределение, поэтому оно и названо нормальным.

Распределение Пуассона тоже часто встречается в работе дата-сайентистов и аналитиков: это число событий за какой-то промежуток времени — при условии, что события независимы друг от друга и имеют некоторый порог интенсивности.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Это и число посетителей в торговом центре, и количество голов, забитых футбольной командой, и скорость роста колонии бактерий.

Существуют и другие распределения, в том числе довольно экзотические: Вигнера, Вейбулла, Коши. Они встречаются намного реже или преимущественно в каких-то специальных областях вроде квантовой физики. Тем не менее дата-сайентисту нужно знать графики, параметры и названия основных распределений, благо их не так много.

3. Семплирование

Предположим, вам требуется решить важную задачу: выяснить среднюю ширину морды домашних котов нашей страны. Прямой способ, то есть измерение всех домашних питомцев, невозможен по ряду объективных причин. Придётся ограничиться выборкой — взять какое-то число животных, измерить морды именно им и сделать выводы по итогам только этих исследований.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Но тут сразу же возникают вопросы:

Семплирование — это группа статистических методов и приёмов, отвечающих на эти вопросы. С помощью семплирования мы формируем нашу выборку так, чтобы она наилучшим образом отражала свойства генеральной совокупности — то есть свойства всех котов страны.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Иными словами, вы не можете измерить N первых попавшихся котов и обобщить результат для остальных. Выборка должна хорошо «сидеть» во всей популяции кошек, чтобы можно было делать обоснованные выводы. Такую выборку называют релевантной.

Кстати, статистика и котики — близнецы-братья. После выхода одноимённой книги Владимира Савельева мы говорим «статистика», а подразумеваем «котики», и наоборот. И смело рекомендуем эту книгу всем, кто дочитал до этого места.

В Data Science методы семплирования применяются при разработке, подготовке и оценке датасетов, чтобы они одновременно и были упорядоченными, и соответствовали реальности.

4. Смещение

Прочитайте нашу статью о создании простой модели машинного обучения. Она предсказывает город, в который вероятнее всего поедет турист, на основании его возраста, пола, места жительства, дохода и транспортных предпочтений. Такая рекомендательная система на минималках.

Смещение происходит, когда модель недооценивает или переоценивает какой-либо параметр. Представим, что модель из статьи выше отправляет всех краснодарцев в Париж — независимо от их дохода, предпочтений и других параметров. В этом случае мы скажем, что модель переоценивает значение параметра «Город проживания».

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Чаще всего причиной смещения являются:

Когда мы неверно собираем данные, говорят о систематической ошибке отбора. Например, в прошлом веке многие считали, что во Вселенной больше голубых галактик, — впечатление возникало потому, что плёнка была более чувствительна к голубой части спектра.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Другая ошибка — ошибка меткого стрелка — происходит, когда мы вольно или невольно отбираем в выборку только схожие между собой данные, то есть фактически рисуем мишень вокруг места, куда попадём.

Причин, вызывающих смещение, так много, что Марк Твен заметил: «Существует три вида лжи: ложь, наглая ложь и статистика». Например:

Эти и другие ошибки смещения трудно выявить статистическими методами, поэтому нужно стараться избежать их до того, как вы начнёте сбор данных.

Если пить «Боржоми» уже поздно (датасет уже сформирован), обязательно спросите себя: «Не смещены ли мои данные?» — а они наверняка смещены, «Куда и почему они смещены?» и «Можно ли с этим жить?»

5. Дисперсия

Дисперсия — это величина, показывающая, как именно и насколько сильно разбросаны значения — например, предсказания модели машинного обучения или доход за рассматриваемый период. За точку, относительно которой эти значения разбросаны, берут истинное значение, целевую переменную или математическое ожидание, которое вычисляется теоретически и заранее.

Часто в качестве матожидания выступает обычное среднее арифметическое. Например, математическое ожидание количества очков при броске игрального кубика равно среднему арифметическому очков на всех гранях:

(1 + 2 + 3 + 4 + 5 + 6) / 6 = 21/6 = 3,5

Представьте себе тир, стрелка и мишень. Снайпер стреляет в стандартный круг, где попадание в центр даёт 10 баллов, в зависимости от удаления от центра количество баллов снижается, а крайние области дают всего 1 балл. Каждый выстрел стрелка — это случайное целое значение от 1 до 10.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Изрешечённая пулями мишень — отличная иллюстрация распределения. Дисперсия здесь — величина, обратная кучности попаданий: хорошая кучность означает низкую дисперсию, и наоборот.

6. Дилемма (компромисс) смещения и дисперсии

Смещение и дисперсия вместе составляют итоговую ошибку предсказания модели машинного обучения. В идеальном мире и смещение маленькое, и дисперсия низкая. На практике это связано в дилемму: уменьшение одной из величин неизбежно приводит к росту другой.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Если не вдаваться в детали, обучение модели — это построение функции, график которой лучше всего ложится на точки из тренировочного набора данных.

Модель может нарисовать нам довольно сложную и заковыристую функцию, график, который хорошо охватывает все точки в тренировочных данных. Но если наложить этот график на новые точки (то есть дать функции новые данные), она сработает хуже — так и получается смещение.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

С другой стороны, обучение на разных тренировочных наборах или даже разных датасетах с большой вероятностью даст разброс в предсказаниях, то есть высокую дисперсию.

Более сложные модели дают низкое смещение, но чувствительны к шуму и колебаниям в новых данных, поэтому их предсказания разбросаны. Если при обучении наш снайпер будет учитывать незначимые факторы (вроде цвета мишени или направления магнитного поля Земли), то в другом тире, с другой винтовкой или в другую погоду точность его стрельбы упадёт.

Простые модели, напротив, упускают важные параметры и «бьют кучно, но мимо». Как другой снайпер, не приученный обращать внимание на ветер и расстояние до мишени.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

В процессе настройки модели машинного обучения дата-сайентист всегда ищет компромисс между смещением и дисперсией, чтобы уменьшить общую ошибку предсказания.

Кстати, эта дилемма встречается не только в статистике и машинном обучении, но и в обучении людей. В исследовании 2009 года утверждается, что люди используют эвристику «высокое смещение + низкая дисперсия»: мы заблуждаемся, зато очень уверенно.

Учтите это, если захотите сделать свой ИИ более похожим на человека.

7. Корреляция

Когда изменения одной величины сопутствуют изменениям другой, говорят о корреляции. Главное, что необходимо о ней знать: корреляция не означает причинно-следственную связь.

Линейная корреляция — это когда изменения одной величины пропорциональны изменениям другой. Она может быть:

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Статистическую связь между переменными исследуют с помощью корреляционного анализа. Его основная задача — оценить тесноту связи (это термин) между переменными, чтобы понять, какие переменные учитывать в модели, а какие нет.

И ещё раз, потому что действительно важно: корреляция ни в коем случае не означает причинно-следственную связь. Если два показателя скоррелированы, то далеко не факт, что они хоть как-то связаны.

Кстати, проект Spurious Correlations («Ложные корреляции») публикует графики корреляций между совершенно неожиданными статистическими показателями — например, количеством людей, утонувших в домашних бассейнах, и числом фильмов с участием Николаса Кейджа.

Дисперсия что это такое простыми словами. Смотреть фото Дисперсия что это такое простыми словами. Смотреть картинку Дисперсия что это такое простыми словами. Картинка про Дисперсия что это такое простыми словами. Фото Дисперсия что это такое простыми словами

Имеет смысл время от времени заходить по этой ссылке с целью профилактики СПГС — синдрома поиска глубинной связи.

Заключение

Data Science — не просто комбинирование модных моделей в Jupyter-ноутбуке. Профессионалы в этой области глубоко понимают природу данных и то, как они могут помочь в принятии конкретных бизнес-решений.

Всё это изучалось в статистике задолго до того, как первый дата-сайентист набрал свой первый import pandas as pd. Статистика — фундамент всей современной науки о данных, включая машинное обучение, глубокие нейросети и даже искусственный интеллект.

В нашем курсе «Профессия Data Scientist» статистике уделено самое пристальное внимание. Вы не ударите в грязь лицом ни на тусовке статистиков, ни на настоящем DS-собеседовании. Приходите!

Polina Vari для Skillbox

Для отличия статистического термина от терминов из других отраслей (музыки, биологии) часто пишут этот термин через «е», а не через «э».

Описательная статистика (англ. descriptive statistics) занимается обработкой опытных данных, их систематизацией, наглядным представлением в форме графиков и таблиц, а также их количественным описанием посредством основных статистических показателей.

Тренировочный набор, или обучающая выборка (англ. train set, training sample), — часть данных из датасета, по которой производится настройка или оптимизация модели машинного обучения.

Рекомендательные системы — программы, которые пытаются предсказать, какие объекты (фильмы, музыка, книги, новости, веб-сайты и др.) будут интересны пользователю.

Разницу между наблюдаемым значением и значением, предсказанным моделью.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *