Для чего необходима статистика
Применение статистики в жизни. Практическая польза статистики
С одной стороны статистика скучный предмет, со своими навороченными методами и сложным для усвоения материалом. Студенты часто думают, что этот предмет им не нужен, и ошибаются. Статистические данные применяются постоянно во всех сферах жизни, так же как и статистические методы, которые обеспечивают сбор необходимых данных. Основу статистики должны знать все люди, так как эта наука обучает, как собирать и систематизировать их, а также анализировать и делать выводы. В жизни подобные знаний могут пригодиться и не раз, причем на любой работе.
У каждого человека есть свой метод анализа окружающего мира, а статистика помогает формировать наблюдательность, которая нужна при сборе информации. Информация должна быть качественной и достоверной, так как на основе нее придется принимать решения. Статистика позволяет регистрировать социальные, демографические, экономические и т.д. феномены. И не нужно никого убеждать в том, что эта наука нужна, если не была нужна, то она бы не появилась, а так, все же делается на основе практики. Необходимость чего-то способствует зарождению чему-то.
— собрать данные, которые характеризуют единицы или коллективы;
— определить наличие закономерностей на основе собранных данных;
— анализ данных, разработка систем наблюдения.
Все это помогает на практике собрать всю необходимую информацию для принятия каких-то решений. Очень заметна польза статистики в экономике. Учитывая то, что все в нашем мире продается и покупается, каждый норовит создать свой бизнес, то без анализа рынка никак. Таким образом, статистика нужна каждому человеку, перед тем как начать свое дело. Большое количество статистических методов позволяют собрать необходимый объем нужных данных.
Это не то, что наука, это настоящее искусство. Учите статистику, и не только учите, а старайтесь связать в голове теорию с практическим применением, чтобы проще запоминалось, поймете тогда какую именно помощь, может вам оказать статистика и не стоит от такой помощи отказаться. Даже в виртуальном мире, счетчики посетителей и другие статистические инструменты указывают на то, что сбор данных очень важен и может пригодиться при принятии будущих решений.
Если материал был полезен, вы можете отправить донат или поделиться данным материалом в социальных сетях:
Основы статистики: просто о сложных формулах
Статистика вокруг нас
Статистика и анализ данных пронизывают практически любую современную область знаний. Все сложнее становится провести границу между современной биологией, математикой и информатикой. Экономические исследования и регрессионный анализ уже практически неотделимы друг от друга. Один из известных методов проверки распределения на нормальность — критерий Колмогорова-Смирнова. А вы знали, что именно Колмогоров внес огромный вклад в развитие математической лингвистики?
Еще будучи студентом психологического факультета СПбГУ, я заинтересовался когнитивной психологией. Кстати, Иммануил Кант не считал психологию наукой, так как не видел возможности применять в ней математические методы. Мои текущие исследования посвящены моделированию психических процессов, и я надеюсь, что такие направления в современной когнитивной психологии, как вычислительные и коннективисткие модели, смягчили бы его отношение!
Конечно, статистика применяется далеко за пределами научных лабораторий: в рекламе, маркетинге, бизнесе, медицине, образовании и т.д. Но, что самое интересное, базовые знания анализа данных крайне полезны и в повседневной жизни. Например, думаю, все вы знакомы с понятием среднего арифметического. Среднее значение очень часто используется в СМИ при обсуждении различных социально-экономических показателей — доходов, уровня безработицы и т.д. В 2005 году британские СМИ писали о том, что средний уровень дохода населения не только не возрос, но снизился на 0,2 % по сравнению с предыдущим годом. Мелькали заголовки «Доходы населения снизились впервые с 1990 года». Некоторые политики даже использовали этот факт, критикуя действующее правительство. Однако, важно понимать, что среднее арифметическое — хороший показатель, когда наш признак имеет симметричное распределение (богатых столько же, сколько бедных). Реальное же распределение доходов имеет скорее следующий вид:
Распределение имеет явно выраженную асимметрию: очень состоятельных людей заметно меньше, чем представителей среднего класса. Это приводит к тому, что в данном случае банкротство одного из миллионеров может значительно повлиять на этот показатель. Гораздо информативнее использовать значение медианы для описания таких данных. Медиана — это значение зарплаты, которое находится в самой середине распределения доходов (50% всех наблюдений меньше медианы, 50% — больше). И, как ни удивительно, медиана дохода в 2005 году в Великобритании, в отличие от среднего значения, продолжила свой рост. Таким образом, если вы знаете о различных типах распределения и различных мерах центральной тенденции (среднее и медиана), то вас не так просто ввести в заблуждение в таких случаях, как описаны в примере.
Черный ящик статистического анализа
Как мы уже выяснили, чем бы вы ни планировали заниматься, вероятность столкнуться с курсом «математическая статистика в вашей области» постепенно приближается к единице. Однако, часто занятия по введению в статистику не вызывают восторга у студентов нетехнических факультетов. Через несколько занятий выясняется, что такие базовые понятия, как, например, корреляция представляют собой нечто следующее:
О чем нам, собственно, говорит p-value?
Предположим, мы решили выяснить, существует ли взаимосвязь между пристрастием к кровавым компьютерным играм и агрессивностью в реальной жизни. Для этого были случайным образом сформированы две группы школьников по 100 человек в каждой (1 группа — фанаты стрелялок, вторая группа — не играющие в компьютерные игры). В качестве показателя агрессивности выступает, например, число драк со сверстниками. В нашем воображаемом исследовании оказалось, что группа школьников-игроманов действительно заметно чаще конфликтует с товарищами. Но как нам выяснить, насколько статистически достоверны полученные различия? Может быть, мы получили наблюдаемую разницу совершенно случайно? Для ответа на эти вопросы и используется значение p-уровня значимости (p-value) — это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет. Иными словами, это вероятность получить такие или еще более сильные различия между нашими группами, при условии, что, на самом деле, компьютерные игры никак не влияют на агрессивность. Звучит не так уж и сложно. Однако, именно этот статистический показатель очень часто интерпретируется неправильно.
А теперь несколько примеров про p-value
Давайте разберем все ответы по порядку:
Онлайн-курс по основам статистики: сложные формулы несложным языком
Сейчас я пишу диссертацию на факультете психологии СПбГУ и преподаю статистику биологам в Институте биоинформатики. Основываясь на курсе читаемых лекций и собственного исследовательского опыта, возникла идея создать онлайн-курс по введению в статистику на русском языке для всех желающих, необязательно биоинформатиков или биологов.
Существует много хороших онлайн-курсов по анализу данных и статистике (например, такой, такой, или такой), но практически все они на английском языке. Надеюсь, что курс будет полезен для тех, кто только знакомится с основами статистики. В нем я стараюсь в максимально доступной форме разобрать основные идеи и методы анализа данных, уделяя особое внимание самой идее статистической проверки гипотез и интерпретации получаемых результатов. В качестве примеров будут задачи из различных областей: от биоинформатики до социологии. Курс бесплатный и все его материалы останутся открытыми после окончания, начинается 15 февраля.
Зачем нужна статистика?
Более 200 лет длится статистическая история. Изменяясь и развиваясь, статистика охватывает экономические и социальные сферы жизни, вооружается научными методами и современными технологиями. Это в полной мере относится и к работе территориальных органов Росстата, в т. ч. и Владимирстата. В рамках федерального плана владимирские статистики ежегодно выполняют около 1500 статистических работ с миллионами показателей, ведут работу с запросами от организаций и граждан, организуют сплошные и выборочные наблюдения.
В частности, Росстат и его территориальные органы проводят мониторинг исполнения важнейших указов Президента России и решений Правительства РФ. Одна из основных задач — вхождение в число пяти крупнейших экономик мира. Указ президента «О национальных целях и стратегических задачах развития РФ до 2024 года» от 7 мая 2018 года определяет 12 ключевых направлений, по которым должен произойти существенный рост показателей. Среди них экономика, демография, образование, здравоохранение, экология и др. Конкретные меры, принимаемые в каждой из сфер, до 2024 года призваны обеспечить прорыв в развитии страны и положительно сказаться на качестве жизни россиян, росте численности населения, эффективности самореализации.
— Для того чтобы разрабатывать политику и проверять, как выработанная политика влияет на внешний мир, нужна информация. Нужно сделать замеры, нужно посмотреть, что собой представляет то или иное явление, выяснить факты, которые на него влияют, как стимулируют или, наоборот, не позволяет этому явлению развиваться. И плюс, конечно, регулярный мониторинг. Мы призваны обеспечить этот мониторинг, обеспечить замеры по всем направлениям, которые определил президент.
О чем молчит статистика
Фиксируется только то, что может быть измерено в цифрах
От чего зависит качество статистических данных? И почему они нередко подвержены искажениям?
Официальной статистикой является то, что легитимизировал Росстат
Из каких данных складывается федеральная статистическая отчетность?
Кто является адресатом статистики? Органы власти? Предпринимательские или иные сообщества? Общество в целом?
Возможности независимой статистики пока серьезно ограничены
Чем отличается госстатистика от независимой статистики? И какую статистику следует считать независимой? Существует ли она вообще?
Ольга Моляренко: Независимой для отдельных ведомств можно считать ту статистику, которая собирается и формируется по их сфере деятельности другим ведомством, не заинтересованным в положительной оценке искомого. Соответственно, независимой от государства статистикой можно считать производимую негосударственными организациями. Несмотря на развитие информационных технологий, потенциальные возможности независимой статистики пока серьезно ограничены. И не по политическим, а по финансово-экономическим причинам: выстраивание полноценной собственной системы сбора данных (или, например, проведение собственной переписи населения) весьма ресурсозатратно, мало кто, кроме собственно государства, может себе это позволить.
Иногда статистика фабрикуется под страхом наказания
В каких сферах жизни чаще всего встречается манипуляция статистикой?
Ольга Моляренко: Про криминальную статистику есть отдельное прекрасное исследование Марии Шклярук и Дмитрия Скугаревского с коллегами. Фабула проблемы там заключается в том, что само ведомство формирует и подает показатели, по которым оно потом оценивается и финансируется. Скажем, если на территории муниципалитета собирает данные отделение Росстата, иные федеральные и региональные органы, что-то подает он сам, и большинство показателей на том или ином уровне должны стыковаться, то альтернативных источников о криминальной ситуации нет, поэтому хоть как-то проверить качество ведомственных данных невозможно даже гипотетически. При этом, несмотря на декларируемую реформу и отказ от «палочно-галочной» системы, показатели, включая необходимость роста раскрываемости, фактически никто не отменял. Но в целом ведомственной статистикой можно назвать те количественные данные, которые орган власти формирует для своей деятельности или в ее рамках для собственной работы, а не для последующей передачи Росстату.
Не хватает мощностей для «освещения» теневой экономики
Существуют ли способы получения статистических данных в сфере теневой экономики?
Поскольку теневые доходы находятся вне поля зрения государства, можно, наверное, предположить, что в реальности наши граждане живут чуть лучше, чем явствует из официальной статистики?
Ольга Моляренко: Абсолютно. Любые данные можно использовать, если мы точно понимаем, когда, как, при каких условиях, с какими целями и кем они собирались. То есть данные могут не соответствовать реальности, но если мы четко понимаем, как они собирались, то можем судить о степени их достоверности.
Должна ли статистика быть проверяемой? Необходим ли ей аудит?
Ольга Моляренко: Реформа статистики в Китае в начале XX века стартовала как раз с аудита, в рамках которого были обнаружены существенные махинации с данными. Что касается России, потрясающе интересным для меня исследованием стала работа Дмитрия Рогозина с коллегами, которые провели методический аудит массовых опросов населения, в рамках которого выяснилась, что около 40 процентов бумажных анкет просто фабрикуется переписчиками. Я думаю, что аудит необходим, но не столько для вскрытия намеренных манипуляций данными, сколько для выявления проблем, которые из страха замалчивают исполнители.
На ваш взгляд, необходима ли независимость Росстата от политических или административных органов, равно как и от частного сектора?
7 базовых статистических понятий, необходимых дата-сайентисту
Даже если вы хорошо программируете, но слабо ориентируетесь в статистике, вероятность выжить в Data Science очень низка.
У статистики есть несколько различных определений. Одно из самых простых и точных — это «наука о сборе и классификации цифровых данных». А если добавить к нему немного о программировании и машинном обучении, то получится неплохое описание основ Data Science.
В самом деле, в Data Science трудно найти область, где нет статистики в том или ином виде. Она нужна для:
Мы выбрали семь базовых концепций, без которых в Data Science точно не обойтись. К счастью, они не слишком сложны.
С некоторых пор утверждает, что он data scientist. В предыдущих сезонах выдавал себя за математика, звукорежиссёра, радиоведущего, переводчика, писателя. Кандидат наук, но не точных. Бесстрашно пишет о Data Science и программировании на Python.
1. Меры описательной статистики
Ключевые показатели, применяемые в описательной статистике (их ещё называют мерами или, если точнее, мерами центральной тенденции), — это:
Посмотрите это небольшое видео о среднем, медиане и моде на сайте Академии Хана — образовательного ресурса, который славится доходчивыми объяснениями. Там всё просто, на понятном русском языке.
Кроме трёх перечисленных, есть и другие статистические показатели — например, меры рассеяния. Главная из них — дисперсия, о ней ниже. Все они нужны, чтобы понять, какие перед нами данные и о чём именно они рассказывают.
2. Распределение
Внешняя форма данных, выраженная в мерах описательной статистики, даёт нам информацию об их характере. Это как в жизни: по фигуре, походке и одежде человека обычно можно догадаться о его поле, возрасте и даже профессии. В случае числовых данных мы догадываемся о распределении.
Термин пришёл из теории вероятностей, которая рассматривает любое событие в мире как имеющее ту или иную вероятность. Однородные события хоть и происходят с разной вероятностью, но подчиняются распределению, которое «раздаёт» им эти вероятности.
В Data Science распределение понимается обобщённо: это закон соответствия одной величины другой. Оно подсказывает нам, какой именно процесс может скрываться за данными, и то, насколько эти данные полны. Чуть подробнее об этом в нашей статье про математику для джунов.
Возможно, вы уже слышали про колокол нормального распределения, или гауссиану: она описывает процессы, где результат является суммой многих случайных величин, каждая из которых слабо зависит от другой и вносит сравнительно небольшой вклад.
Величина ошибок измерения в физике, длина когтей, зубов и шерсти в биологии, объёмы речных стоков в гидрологии — все эти показатели имеют нормальное распределение. Это, пожалуй, самое распространённое в природе и не только в природе распределение, поэтому оно и названо нормальным.
Распределение Пуассона тоже часто встречается в работе дата-сайентистов и аналитиков: это число событий за какой-то промежуток времени — при условии, что события независимы друг от друга и имеют некоторый порог интенсивности.
Это и число посетителей в торговом центре, и количество голов, забитых футбольной командой, и скорость роста колонии бактерий.
Существуют и другие распределения, в том числе довольно экзотические: Вигнера, Вейбулла, Коши. Они встречаются намного реже или преимущественно в каких-то специальных областях вроде квантовой физики. Тем не менее дата-сайентисту нужно знать графики, параметры и названия основных распределений, благо их не так много.
3. Семплирование
Предположим, вам требуется решить важную задачу: выяснить среднюю ширину морды домашних котов нашей страны. Прямой способ, то есть измерение всех домашних питомцев, невозможен по ряду объективных причин. Придётся ограничиться выборкой — взять какое-то число животных, измерить морды именно им и сделать выводы по итогам только этих исследований.
Но тут сразу же возникают вопросы:
Семплирование — это группа статистических методов и приёмов, отвечающих на эти вопросы. С помощью семплирования мы формируем нашу выборку так, чтобы она наилучшим образом отражала свойства генеральной совокупности — то есть свойства всех котов страны.
Иными словами, вы не можете измерить N первых попавшихся котов и обобщить результат для остальных. Выборка должна хорошо «сидеть» во всей популяции кошек, чтобы можно было делать обоснованные выводы. Такую выборку называют релевантной.
Кстати, статистика и котики — близнецы-братья. После выхода одноимённой книги Владимира Савельева мы говорим «статистика», а подразумеваем «котики», и наоборот. И смело рекомендуем эту книгу всем, кто дочитал до этого места.
В Data Science методы семплирования применяются при разработке, подготовке и оценке датасетов, чтобы они одновременно и были упорядоченными, и соответствовали реальности.
4. Смещение
Прочитайте нашу статью о создании простой модели машинного обучения. Она предсказывает город, в который вероятнее всего поедет турист, на основании его возраста, пола, места жительства, дохода и транспортных предпочтений. Такая рекомендательная система на минималках.
Смещение происходит, когда модель недооценивает или переоценивает какой-либо параметр. Представим, что модель из статьи выше отправляет всех краснодарцев в Париж — независимо от их дохода, предпочтений и других параметров. В этом случае мы скажем, что модель переоценивает значение параметра «Город проживания».
Чаще всего причиной смещения являются:
Когда мы неверно собираем данные, говорят о систематической ошибке отбора. Например, в прошлом веке многие считали, что во Вселенной больше голубых галактик, — впечатление возникало потому, что плёнка была более чувствительна к голубой части спектра.
Другая ошибка — ошибка меткого стрелка — происходит, когда мы вольно или невольно отбираем в выборку только схожие между собой данные, то есть фактически рисуем мишень вокруг места, куда попадём.
Причин, вызывающих смещение, так много, что Марк Твен заметил: «Существует три вида лжи: ложь, наглая ложь и статистика». Например:
Эти и другие ошибки смещения трудно выявить статистическими методами, поэтому нужно стараться избежать их до того, как вы начнёте сбор данных.
Если пить «Боржоми» уже поздно (датасет уже сформирован), обязательно спросите себя: «Не смещены ли мои данные?» — а они наверняка смещены, «Куда и почему они смещены?» и «Можно ли с этим жить?»
5. Дисперсия
Дисперсия — это величина, показывающая, как именно и насколько сильно разбросаны значения — например, предсказания модели машинного обучения или доход за рассматриваемый период. За точку, относительно которой эти значения разбросаны, берут истинное значение, целевую переменную или математическое ожидание, которое вычисляется теоретически и заранее.
Часто в качестве матожидания выступает обычное среднее арифметическое. Например, математическое ожидание количества очков при броске игрального кубика равно среднему арифметическому очков на всех гранях:
(1 + 2 + 3 + 4 + 5 + 6) / 6 = 21/6 = 3,5
Представьте себе тир, стрелка и мишень. Снайпер стреляет в стандартный круг, где попадание в центр даёт 10 баллов, в зависимости от удаления от центра количество баллов снижается, а крайние области дают всего 1 балл. Каждый выстрел стрелка — это случайное целое значение от 1 до 10.
Изрешечённая пулями мишень — отличная иллюстрация распределения. Дисперсия здесь — величина, обратная кучности попаданий: хорошая кучность означает низкую дисперсию, и наоборот.
6. Дилемма (компромисс) смещения и дисперсии
Смещение и дисперсия вместе составляют итоговую ошибку предсказания модели машинного обучения. В идеальном мире и смещение маленькое, и дисперсия низкая. На практике это связано в дилемму: уменьшение одной из величин неизбежно приводит к росту другой.
Если не вдаваться в детали, обучение модели — это построение функции, график которой лучше всего ложится на точки из тренировочного набора данных.
Модель может нарисовать нам довольно сложную и заковыристую функцию, график, который хорошо охватывает все точки в тренировочных данных. Но если наложить этот график на новые точки (то есть дать функции новые данные), она сработает хуже — так и получается смещение.
С другой стороны, обучение на разных тренировочных наборах или даже разных датасетах с большой вероятностью даст разброс в предсказаниях, то есть высокую дисперсию.
Более сложные модели дают низкое смещение, но чувствительны к шуму и колебаниям в новых данных, поэтому их предсказания разбросаны. Если при обучении наш снайпер будет учитывать незначимые факторы (вроде цвета мишени или направления магнитного поля Земли), то в другом тире, с другой винтовкой или в другую погоду точность его стрельбы упадёт.
Простые модели, напротив, упускают важные параметры и «бьют кучно, но мимо». Как другой снайпер, не приученный обращать внимание на ветер и расстояние до мишени.
В процессе настройки модели машинного обучения дата-сайентист всегда ищет компромисс между смещением и дисперсией, чтобы уменьшить общую ошибку предсказания.
Кстати, эта дилемма встречается не только в статистике и машинном обучении, но и в обучении людей. В исследовании 2009 года утверждается, что люди используют эвристику «высокое смещение + низкая дисперсия»: мы заблуждаемся, зато очень уверенно.
Учтите это, если захотите сделать свой ИИ более похожим на человека.
7. Корреляция
Когда изменения одной величины сопутствуют изменениям другой, говорят о корреляции. Главное, что необходимо о ней знать: корреляция не означает причинно-следственную связь.
Линейная корреляция — это когда изменения одной величины пропорциональны изменениям другой. Она может быть:
Статистическую связь между переменными исследуют с помощью корреляционного анализа. Его основная задача — оценить тесноту связи (это термин) между переменными, чтобы понять, какие переменные учитывать в модели, а какие нет.
И ещё раз, потому что действительно важно: корреляция ни в коем случае не означает причинно-следственную связь. Если два показателя скоррелированы, то далеко не факт, что они хоть как-то связаны.
Кстати, проект Spurious Correlations («Ложные корреляции») публикует графики корреляций между совершенно неожиданными статистическими показателями — например, количеством людей, утонувших в домашних бассейнах, и числом фильмов с участием Николаса Кейджа.
Имеет смысл время от времени заходить по этой ссылке с целью профилактики СПГС — синдрома поиска глубинной связи.
Заключение
Data Science — не просто комбинирование модных моделей в Jupyter-ноутбуке. Профессионалы в этой области глубоко понимают природу данных и то, как они могут помочь в принятии конкретных бизнес-решений.
Всё это изучалось в статистике задолго до того, как первый дата-сайентист набрал свой первый import pandas as pd. Статистика — фундамент всей современной науки о данных, включая машинное обучение, глубокие нейросети и даже искусственный интеллект.
В нашем курсе «Профессия Data Scientist» статистике уделено самое пристальное внимание. Вы не ударите в грязь лицом ни на тусовке статистиков, ни на настоящем DS-собеседовании. Приходите!
Polina Vari для Skillbox
Для отличия статистического термина от терминов из других отраслей (музыки, биологии) часто пишут этот термин через «е», а не через «э».
Описательная статистика (англ. descriptive statistics) занимается обработкой опытных данных, их систематизацией, наглядным представлением в форме графиков и таблиц, а также их количественным описанием посредством основных статистических показателей.
Тренировочный набор, или обучающая выборка (англ. train set, training sample), — часть данных из датасета, по которой производится настройка или оптимизация модели машинного обучения.
Рекомендательные системы — программы, которые пытаются предсказать, какие объекты (фильмы, музыка, книги, новости, веб-сайты и др.) будут интересны пользователю.
Разницу между наблюдаемым значением и значением, предсказанным моделью.