Дескриптивная статистика что это

Описательные статистики

Упорядочим эти величины по возрастанию, иными словами, построим вариационный ряд:

Х(1) x более важны, чем другие. Мы присоединяем вес wi к каждому из значений xi в нашей выборке для то­го, чтобы учесть эту важность.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Например, предположим, что мы заинтересованы в определении средней продолжительности госпита­лизации в каком-либо районе и знаем средний реа­билитационный период больных в каждой больнице. Учитываем количество информации, в первом при­ближении принимая за вес каждого наблюдения число больных в больнице.

Взвешенное среднее и среднее арифметическое идентичны, если каждый вес равен единице.

Размах (интервал изменения)

Размах — это разность между максимальным и минимальным значениями переменной в наборе данных; этими двумя величинами обозначают их разность. Обратите внимание, что размах вводит в заблуждение, если одно из значений есть выброс (см. раздел 3).

Размах, полученный из процентилей

Что такое процентили

Предположим, что мы расположим наши данные упорядоченно от самой маленькой величины перемен­ной X и до самой большой величины. Величина X, до которой расположен 1% наблюдений (и выше которой расположены 99% наблюдений), называется первым процентилем.

Величина X, до которой находится 2% наблюдений, называется 2-м процентилем, и т. д.

Применение процентилей

Мы можем добиться такой формы описания рас­сеяния, на которую не повлияет выброс (аномальное значение), исключая экстремальные величины и определяя размах остающихся наблюдений.

Межквартильный размах — это разница между 1-м и 3-м квартилями, т.е. между 25-м и 75-м процентилями. В него входят центральные 50% наблюдений в упорядоченном наборе, где 25% наблюдений находятся ниже центральной точки и 25% — выше.

Интердецильный размах содержит в себе центральные 80% наблюдений, т. е. те наблю­дения, которые располагаются между 10-м и 90-м процентилями.

Мы часто используем размах, который содержит 95% наблюдений, т.е. он исключает 2,5% наблюдений снизу и 2,5% сверху. Указание такого интервала актуально, например, для осуществления диагностики болезни. Такой интервал называется референтный интервал, референтный размах или нормальный размах.

Дисперсия

Один из способов измерения рассеяния данных за­ключается в том, чтобы определить степень отклоне­ния каждого наблюдения от средней арифметической. Очевидно, что чем больше отклонение, тем больше изменчивость, вариабельность наблюдений.

Однако мы не можем использовать среднее этих отклонений как меру рассеяния, потому что положительные от­клонения компенсируют отрицательные отклонения (их сумма равна нулю). Чтобы решить эту проблему, мы возводим в квадрат каждое отклонение и находим среднее возведенных в квадрат отклонений; эта величина называется вариацией, или дисперсией.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

В случае, если мы имеем дело не с генеральной совокупностью, а с выборкой, то вычисляется выборочная дисперсия:

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Теоретически можно показать, что полу­чится более точная дисперсия по выборке, если разделить не на n, а на (n-1).

Единицы измерения (размерность) вариации — это квадрат единиц измерения первоначальных на­блюдений.

Например, если измерения производятся в килограммах, то единица измерения вариации будет килограмм в квадрате.

Среднеквадратическое отклонение, стандартное отклонение выборки

Среднеквадратическое отклоне­ние — это положительный квадратный корень из дисперсии.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Мы можем представить себе стандартное отклоне­ние как своего рода среднее отклонение наблюдений от среднего. Оно вычисляется в тех же единицах (размерностях), что и исходные данные.

Если разделить стандартное отклонение на сред­нее арифметическое и выразить результат в процен­тах, получится коэффициент вариации.

Он являет­ся мерой рассеяния, не зависит от единиц измерения (безразмерный), но имеет некоторые теоретические не­удобства и поэтому не очень одобряется статистиками.

Вариация в пределах субъектов и между субъектами

Если провести повторные измерения непрерывной переменной у исследуемого объекта, то можно увидеть ее изме­нения (внутрисубъектные изменения). Это можно объяснить тем, что объект не всегда может дать точные и те же самые ответы, и/или ошибкой, погрешностью измерения. Однако при измерениях у одного объекта вариация обычно меньше, чем вариация единичного измерения в группе (межсубъектные изменения).

Например, вместимость легкого 17-летнего мальчика составляет от 3,60 до 3,87 л, когда измерения повторяются не менее 10 раз; если провести однократное измерение у 10 мальчиков того же возраста, то объем будет между 2,98 и 4,33 л. Эти концепции важны в плане исследования.

Источник

Полезные статьи → Статистические методы анализа данных в решении практических задач (часть первая)

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это Опрос сотрудников, клиентов, потребителей, – это не просто сбор информации, а полноценное исследование. А целью всякого исследования является научно обоснованная интерпретация изученных фактов. Первичный материал необходимо обработать, а именно упорядочить и проанализировать. После опроса респондентов происходит анализ данных исследования. Это ключевой этап. Он представляет собой совокупность приемов и методов, направленных на то, чтобы проверить, насколько были верны предположения и гипотезы, а также ответить на заданные вопросы. Данный этап является, пожалуй, наиболее сложным с точки зрения интеллектуальных усилий и профессиональной квалификации, однако позволяет получить максимум полезной информации из собранных данных. Методы анализа данных многообразны. Выбор конкретного метода зависит, в первую очередь, от того, на какие вопросы мы хотим получить ответ. Можно выделить два класса процедур анализа:

Целью одномерного анализа является описание одной характеристики выборки в определенный момент времени. Рассмотрим более подробно.

Одномерные типы анализа данных

Количественные исследования

Дескриптивный анализ

Дескриптивные (или описательные) статистики являются базовым и наиболее общим методом анализа данных. Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что этоПредставьте, что вы проводите опрос с целью составления портрета потребителя товара. Респонденты указывают свой пол, возраст, семейное и профессиональное положение, потребительские предпочтения и т.д., а описательные статистики позволяют получить информацию, на основе которой будет строиться весь портрет. В дополнение к числовым характеристикам создаются разнообразные графики, помогающие визуально представить результаты опроса. Всё это многообразие вторичных данных объединяется понятием «дескриптивный анализ». Полученные в ходе исследования числовые данные наиболее часто представляются в итоговых отчетах в виде частотных таблиц. В таблицах могут быть представлены разные виды частот. Давайте рассмотрим на примере: Потенциальный спрос на товар Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Наряду с частотами, дескриптивный анализ предполагает расчет различных описательных статистик. Соответствуя своему названию, они предоставляют основную информацию о полученных данных. Уточним, использование конкретной статистики зависит от того, в каких шкалах представлена исходная информация. Номинальная шкала используется для фиксации объектов, не имеющих ранжированного порядка (пол, место жительства, предпочитаемая марка и т.д.). Для подобного рода массива данных нельзя рассчитать каких-либо значимых статистических показателей, кроме моды — наиболее часто встречающегося значения переменной. Несколько лучше в плане анализа ситуация обстоит с порядковой шкалой. Здесь становится возможным, наряду с модой, расчет медианы – значения, разбивающего выборку на две равные части. Например, при наличии нескольких ценовых интервалов на товар (500-700 руб. руб., 700-900, 900-1100 руб.) медиана позволяет установить точную стоимость, дороже или дешевле которой потребители готовы приобретать или, наоборот, отказаться от покупки. Наиболее богатыми на все возможные статистики являются количественные шкалы, которые представляют собой ряды числовых значений, имеющих равные интервалы между собой и поддающихся измерению. Примерами подобных шкал могут служить уровень дохода, возраст, время, отводимое на покупки и т.д. В данном случае становятся доступными следующие информационные меры: среднее, размах, стандартное отклонение, стандартная ошибка среднего. Конечно, язык цифр является довольно «сухим» и для многих весьма непонятным. По этой причине дескриптивный анализ дополняется визуализацией данных путем построения различных диаграмм и графиков, как, например: гистограммы, линейные, круговые или точечные диаграммы. Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Таблицы сопряженности и корреляции

Таблицы сопряженности – это средство представления распределения двух переменных, предназначенное для исследования связи между ними. Таблицы сопряженности можно рассматривать как частный тип дескриптивного анализа. В них также является возможным представление информации в виде абсолютных и относительных частот, графическая визуализация в виде гистограмм или точечных диаграмм. Наиболее эффективно таблицы сопряженности проявляют себя в определении наличия взаимосвязи между номинальными переменными (например, между полом и фактом потребления какого-либо продукта). В общем виде таблица сопряженности выглядит так. Зависимость между полом и пользованием страховыми услугами

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Статистический анализ данных

На основе представленных в таблице данных и можно делать выводы о наличии/отсутствии взаимосвязи между исследуемыми переменными. Для более точного выявления наличия связи между переменными используют разные статистические критерии. Наиболее часто применяются такие, как:

Правильный выбор критерия является решающим шагом для получения корректных результатов. Поэтому, если перед вами стоит задача проведения статистического анализа и интерпретация его результатов, но вы не чувствуете уверенности – лучше обратиться к специалистам сервиса Анкетолог, чтобы не получить неправильные выводы, не приближающие к решению проблемы.

По вопросам расчета индексов:

Телефон: +7 (383) 203-49-99

Продолжение статьи «Статистические методы анализа данных для решения практических задач»: часть вторая и часть третья.

Источник

Методы описательной статистики

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Практически каждый исследователь сталкивается рано или поздно в своей работе с необходимостью обработки и дальнейшего предоставления статистических данных. Причем это касается самых разных отраслей науки – от технических и медицинских до социологических и культурологических.

Обусловлена такая распространенность тем, что статистические методы помогают получить и обосновать определенные суждения об объектах, субъектах, группах людей и прочем, что обладает определенной внутренней неоднородностью.

Вы можете заказать услугу срочной публикации научных статей в научных журналах. Специалисты издательства СибАК знают, как выполнить работу в сжатые сроки.

Что такое описательная статистика

Те, кто впервые в своей работе сталкивается с обработкой и описанием данных, не всегда четко представляют, в какой форме их корректно отображать и обрабатывать для того, чтобы в дальнейшем подвергнуть статистическому выводу.

Поэтому нужно четко представлять, что такое описательная статистика. Она еще носит название дескриптивной и занимается анализом и обработкой эмпирических данных с проведением необходимой систематизации. Описательная статистика – это сжатая и концентрированная характеристика изучаемого явления, представленная в виде графиков, таблиц, схем и числовых выражений.

Вот что входит в описательную статистику в качестве основных показателей:

Помимо этого, для осуществления методов описательной статистики используют еще такие показатели, как квартили, асимметрию, статистические моменты, эксцессы, гипотезы, значимости. Каждый из них играет существенную роль для корректного отображения получаемых данных.

Совокупность выше представленных показателей помогает при визуальном представлении данных осуществить:

Как сделать описательную статистику

При выполнении определенного вида работ и решении задач придерживаются следующего порядка.

Обработку статистических параметров методом описательной статистики необходимо проводить на высшем уровне. В противном случае могут пострадать итоговые выводы и результаты научной работы.

Важность корректного представления данных

Статистическое отображение данных важно в любой научной работе. А для публикаций в журналах, индексируемых наукометрическими базами Web of Science и Scopus, нужно особо тщательно относиться к качеству подаваемого материала.

Можно самому разбираться во всех тонкостях и сложных формулах, которые нужно применять. Но, чтобы облегчить и ускорить процесс статистической обработки в исследовании, лучше обратиться к специалистам, которые доступно объяснят даже самые сложные моменты.

Источник

Методы описательной статистики

В основе большинства экспериментов лежит прием «наблюдение», позволяющий установить поведение объекта, определить причинно-следственные связи, мнение и позицию испытуемых, а также сформулировать конкретные выводы в рамках изучаемого вопроса. Далеко не всегда итоги научной работы или практической части позволяют сделать конкретное умозаключение. Поэтому для корректной и грамотной трактовки всех явлений эксперимента авторы используют методы описательной статистики.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

В основе большинства экспериментов лежит прием «наблюдение», позволяющий установить поведение объекта, определить причинно-следственные связи, мнение и позицию испытуемых, а также сформулировать конкретные выводы в рамках изучаемого вопроса. Далеко не всегда итоги научной работы или практической части позволяют сделать конкретное умозаключение. Поэтому для корректной и грамотной трактовки всех явлений эксперимента авторы используют методы описательной статистики.

Что это такое?

Анализ результатов практический части или любой научной работы – необъемлемая часть полноценного труда, представляющего ценность для науки и отрасли. Данный этап важен в любом направлении и предопределяет правомерность или неправомерность выдвинутой гипотезы. Чаще всего к методам описательной статистики прибегают исследователи психологической, социологической и технической сферы.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что этоОсобенности описательной статистики

Описательная (дескриптивная) статистика представляет собой раздел статистики или «инструмент широкого спектра действия», который предназначен для сбора и обработки эмпирических материалов с их дальнейшей систематизацией, уточнением полученных результатов. Миссия данного приема – кратко и емко дать характеристику изучаемому явлению и представить это в максимальной простой форме: графической, табличной, числовой и пр.

Благодаря методам описательной статистики автор научного исследования изначально отсеивает второстепенные моменты, погружаясь в суть мероприятий с учетом заданной цели, намеченных задач и выдвинутой гипотезы, особенностей объекта и предмета исследования. Такие приемы оптимизируют выборку, позволяя получить более точные результаты.

Нужна помощь преподавателя?

Мы всегда рады Вам помочь!

Основные показатели описательной статистики

Описательная статистика базируется на ряде «аргументов», каждый из которых выполняет свою миссию и отражается на конечном результате. К числу таких составляющих показателей относят:

Переменные и постоянные. Уже из самого наименования показателей можно понять, что переменным свойственно меняться (ими могут быть условия проведения эксперимента, какие-либо воздействующие на испытуемых факторы и пр.), постоянные – стабильны на протяжении всего исследования. К их числу можно отнести число испытуемых (если объем выборки изначально утвержден) и т.д.

К ним можно отнести медиану и моду, среднее арифметическое. Медиана – среднее значение повторяющихся переменных, мода – часто встречающийся элемент выборки, среднее арифметическое – призван охарактеризовать центр распределения выборки.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что этоНа чем основывается описательная статистика?

Помимо этого, к данной категории принято относить так называемые экстремум: максимум и минимум (минимальное и максимальное значение (элемент)) выборки.

В эту группу показателей включают дисперсию, стандартное отклонение, коэффициент эксцесса, размах и пр.

Наиболее яркими и распространенными в исследованиях показателями данного класса являются гистограммы, медианы, коэффициенты асимметрии и т.д.

Чаще всего к таким материалам относят результаты наблюдений, которые можно представить в виде гистограмм, таблиц частот, функций распределения.

Для того, чтобы получить и проанализировать вышеуказанные критерии, достаточно следовать определенному алгоритму действий:

Шаг 1. Фиксируем каждый показатель относительно его оси, определяем его вес в числовом выражении.

Шаг 2. Определяем степень распределения вокруг утвержденного центра (оси).

Шаг 3. Определяем асимметричность распределения относительно центра;

Шаг 4. Выводим результаты удобным способом: гистограмма, таблица, функция, график, схема и пр.

Этапы применения методов описательной статистики

Методы описательной статистики применимы не всегда. Чтобы они позволили получить максимально достоверные и полезные результаты, необходимо:

Каждый этап по своему важен и способствует оптимизации собранных материалов, их тотальной обработке и упорядочиванию, что в итоге позволяет понять роль каждого компонента, фактора, испытуемого и сделать грамотный и корректный вывод.

Трудности с учебой?

Помощь в написании студенческих и
аспирантских работ!

Источник

7 базовых статистических понятий, необходимых дата-сайентисту

Даже если вы хорошо программируете, но слабо ориентируетесь в статистике, вероятность выжить в Data Science очень низка.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

У статистики есть несколько различных определений. Одно из самых простых и точных — это «наука о сборе и классификации цифровых данных». А если добавить к нему немного о программировании и машинном обучении, то получится неплохое описание основ Data Science.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

В самом деле, в Data Science трудно найти область, где нет статистики в том или ином виде. Она нужна для:

Мы выбрали семь базовых концепций, без которых в Data Science точно не обойтись. К счастью, они не слишком сложны.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

С некоторых пор утверждает, что он data scientist. В предыдущих сезонах выдавал себя за математика, звукорежиссёра, радиоведущего, переводчика, писателя. Кандидат наук, но не точных. Бесстрашно пишет о Data Science и программировании на Python.

1. Меры описательной статистики

Ключевые показатели, применяемые в описательной статистике (их ещё называют мерами или, если точнее, мерами центральной тенденции), — это:

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Посмотрите это небольшое видео о среднем, медиане и моде на сайте Академии Хана — образовательного ресурса, который славится доходчивыми объяснениями. Там всё просто, на понятном русском языке.

Кроме трёх перечисленных, есть и другие статистические показатели — например, меры рассеяния. Главная из них — дисперсия, о ней ниже. Все они нужны, чтобы понять, какие перед нами данные и о чём именно они рассказывают.

2. Распределение

Внешняя форма данных, выраженная в мерах описательной статистики, даёт нам информацию об их характере. Это как в жизни: по фигуре, походке и одежде человека обычно можно догадаться о его поле, возрасте и даже профессии. В случае числовых данных мы догадываемся о распределении.

Термин пришёл из теории вероятностей, которая рассматривает любое событие в мире как имеющее ту или иную вероятность. Однородные события хоть и происходят с разной вероятностью, но подчиняются распределению, которое «раздаёт» им эти вероятности.

В Data Science распределение понимается обобщённо: это закон соответствия одной величины другой. Оно подсказывает нам, какой именно процесс может скрываться за данными, и то, насколько эти данные полны. Чуть подробнее об этом в нашей статье про математику для джунов.

Возможно, вы уже слышали про колокол нормального распределения, или гауссиану: она описывает процессы, где результат является суммой многих случайных величин, каждая из которых слабо зависит от другой и вносит сравнительно небольшой вклад.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Величина ошибок измерения в физике, длина когтей, зубов и шерсти в биологии, объёмы речных стоков в гидрологии — все эти показатели имеют нормальное распределение. Это, пожалуй, самое распространённое в природе и не только в природе распределение, поэтому оно и названо нормальным.

Распределение Пуассона тоже часто встречается в работе дата-сайентистов и аналитиков: это число событий за какой-то промежуток времени — при условии, что события независимы друг от друга и имеют некоторый порог интенсивности.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Это и число посетителей в торговом центре, и количество голов, забитых футбольной командой, и скорость роста колонии бактерий.

Существуют и другие распределения, в том числе довольно экзотические: Вигнера, Вейбулла, Коши. Они встречаются намного реже или преимущественно в каких-то специальных областях вроде квантовой физики. Тем не менее дата-сайентисту нужно знать графики, параметры и названия основных распределений, благо их не так много.

3. Семплирование

Предположим, вам требуется решить важную задачу: выяснить среднюю ширину морды домашних котов нашей страны. Прямой способ, то есть измерение всех домашних питомцев, невозможен по ряду объективных причин. Придётся ограничиться выборкой — взять какое-то число животных, измерить морды именно им и сделать выводы по итогам только этих исследований.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Но тут сразу же возникают вопросы:

Семплирование — это группа статистических методов и приёмов, отвечающих на эти вопросы. С помощью семплирования мы формируем нашу выборку так, чтобы она наилучшим образом отражала свойства генеральной совокупности — то есть свойства всех котов страны.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Иными словами, вы не можете измерить N первых попавшихся котов и обобщить результат для остальных. Выборка должна хорошо «сидеть» во всей популяции кошек, чтобы можно было делать обоснованные выводы. Такую выборку называют релевантной.

Кстати, статистика и котики — близнецы-братья. После выхода одноимённой книги Владимира Савельева мы говорим «статистика», а подразумеваем «котики», и наоборот. И смело рекомендуем эту книгу всем, кто дочитал до этого места.

В Data Science методы семплирования применяются при разработке, подготовке и оценке датасетов, чтобы они одновременно и были упорядоченными, и соответствовали реальности.

4. Смещение

Прочитайте нашу статью о создании простой модели машинного обучения. Она предсказывает город, в который вероятнее всего поедет турист, на основании его возраста, пола, места жительства, дохода и транспортных предпочтений. Такая рекомендательная система на минималках.

Смещение происходит, когда модель недооценивает или переоценивает какой-либо параметр. Представим, что модель из статьи выше отправляет всех краснодарцев в Париж — независимо от их дохода, предпочтений и других параметров. В этом случае мы скажем, что модель переоценивает значение параметра «Город проживания».

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Чаще всего причиной смещения являются:

Когда мы неверно собираем данные, говорят о систематической ошибке отбора. Например, в прошлом веке многие считали, что во Вселенной больше голубых галактик, — впечатление возникало потому, что плёнка была более чувствительна к голубой части спектра.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Другая ошибка — ошибка меткого стрелка — происходит, когда мы вольно или невольно отбираем в выборку только схожие между собой данные, то есть фактически рисуем мишень вокруг места, куда попадём.

Причин, вызывающих смещение, так много, что Марк Твен заметил: «Существует три вида лжи: ложь, наглая ложь и статистика». Например:

Эти и другие ошибки смещения трудно выявить статистическими методами, поэтому нужно стараться избежать их до того, как вы начнёте сбор данных.

Если пить «Боржоми» уже поздно (датасет уже сформирован), обязательно спросите себя: «Не смещены ли мои данные?» — а они наверняка смещены, «Куда и почему они смещены?» и «Можно ли с этим жить?»

5. Дисперсия

Дисперсия — это величина, показывающая, как именно и насколько сильно разбросаны значения — например, предсказания модели машинного обучения или доход за рассматриваемый период. За точку, относительно которой эти значения разбросаны, берут истинное значение, целевую переменную или математическое ожидание, которое вычисляется теоретически и заранее.

Часто в качестве матожидания выступает обычное среднее арифметическое. Например, математическое ожидание количества очков при броске игрального кубика равно среднему арифметическому очков на всех гранях:

(1 + 2 + 3 + 4 + 5 + 6) / 6 = 21/6 = 3,5

Представьте себе тир, стрелка и мишень. Снайпер стреляет в стандартный круг, где попадание в центр даёт 10 баллов, в зависимости от удаления от центра количество баллов снижается, а крайние области дают всего 1 балл. Каждый выстрел стрелка — это случайное целое значение от 1 до 10.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Изрешечённая пулями мишень — отличная иллюстрация распределения. Дисперсия здесь — величина, обратная кучности попаданий: хорошая кучность означает низкую дисперсию, и наоборот.

6. Дилемма (компромисс) смещения и дисперсии

Смещение и дисперсия вместе составляют итоговую ошибку предсказания модели машинного обучения. В идеальном мире и смещение маленькое, и дисперсия низкая. На практике это связано в дилемму: уменьшение одной из величин неизбежно приводит к росту другой.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Если не вдаваться в детали, обучение модели — это построение функции, график которой лучше всего ложится на точки из тренировочного набора данных.

Модель может нарисовать нам довольно сложную и заковыристую функцию, график, который хорошо охватывает все точки в тренировочных данных. Но если наложить этот график на новые точки (то есть дать функции новые данные), она сработает хуже — так и получается смещение.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

С другой стороны, обучение на разных тренировочных наборах или даже разных датасетах с большой вероятностью даст разброс в предсказаниях, то есть высокую дисперсию.

Более сложные модели дают низкое смещение, но чувствительны к шуму и колебаниям в новых данных, поэтому их предсказания разбросаны. Если при обучении наш снайпер будет учитывать незначимые факторы (вроде цвета мишени или направления магнитного поля Земли), то в другом тире, с другой винтовкой или в другую погоду точность его стрельбы упадёт.

Простые модели, напротив, упускают важные параметры и «бьют кучно, но мимо». Как другой снайпер, не приученный обращать внимание на ветер и расстояние до мишени.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

В процессе настройки модели машинного обучения дата-сайентист всегда ищет компромисс между смещением и дисперсией, чтобы уменьшить общую ошибку предсказания.

Кстати, эта дилемма встречается не только в статистике и машинном обучении, но и в обучении людей. В исследовании 2009 года утверждается, что люди используют эвристику «высокое смещение + низкая дисперсия»: мы заблуждаемся, зато очень уверенно.

Учтите это, если захотите сделать свой ИИ более похожим на человека.

7. Корреляция

Когда изменения одной величины сопутствуют изменениям другой, говорят о корреляции. Главное, что необходимо о ней знать: корреляция не означает причинно-следственную связь.

Линейная корреляция — это когда изменения одной величины пропорциональны изменениям другой. Она может быть:

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Статистическую связь между переменными исследуют с помощью корреляционного анализа. Его основная задача — оценить тесноту связи (это термин) между переменными, чтобы понять, какие переменные учитывать в модели, а какие нет.

И ещё раз, потому что действительно важно: корреляция ни в коем случае не означает причинно-следственную связь. Если два показателя скоррелированы, то далеко не факт, что они хоть как-то связаны.

Кстати, проект Spurious Correlations («Ложные корреляции») публикует графики корреляций между совершенно неожиданными статистическими показателями — например, количеством людей, утонувших в домашних бассейнах, и числом фильмов с участием Николаса Кейджа.

Дескриптивная статистика что это. Смотреть фото Дескриптивная статистика что это. Смотреть картинку Дескриптивная статистика что это. Картинка про Дескриптивная статистика что это. Фото Дескриптивная статистика что это

Имеет смысл время от времени заходить по этой ссылке с целью профилактики СПГС — синдрома поиска глубинной связи.

Заключение

Data Science — не просто комбинирование модных моделей в Jupyter-ноутбуке. Профессионалы в этой области глубоко понимают природу данных и то, как они могут помочь в принятии конкретных бизнес-решений.

Всё это изучалось в статистике задолго до того, как первый дата-сайентист набрал свой первый import pandas as pd. Статистика — фундамент всей современной науки о данных, включая машинное обучение, глубокие нейросети и даже искусственный интеллект.

В нашем курсе «Профессия Data Scientist» статистике уделено самое пристальное внимание. Вы не ударите в грязь лицом ни на тусовке статистиков, ни на настоящем DS-собеседовании. Приходите!

Polina Vari для Skillbox

Для отличия статистического термина от терминов из других отраслей (музыки, биологии) часто пишут этот термин через «е», а не через «э».

Описательная статистика (англ. descriptive statistics) занимается обработкой опытных данных, их систематизацией, наглядным представлением в форме графиков и таблиц, а также их количественным описанием посредством основных статистических показателей.

Тренировочный набор, или обучающая выборка (англ. train set, training sample), — часть данных из датасета, по которой производится настройка или оптимизация модели машинного обучения.

Рекомендательные системы — программы, которые пытаются предсказать, какие объекты (фильмы, музыка, книги, новости, веб-сайты и др.) будут интересны пользователю.

Разницу между наблюдаемым значением и значением, предсказанным моделью.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *