Для чего собирают статистические данные

Статистика в СУБД Teradata

«There are three kinds of lies: lies, damned lies, and statistics» Бенджамин Дизраэли, 40-й премьер-министр Великобритании

Статистическая информация о данных в СУБД играет важную роль в производительности системы. С учетом ряда комментариев к прошлой статье, мы решили описать, зачем нужна статистика в СУБД Teradata, как она учитывается оптимизатором, на что влияет, и дать ряд практических советов по сбору статистики для тех, кто работает с нашей СУБД.

Что такое статистика и зачем она нужна

143 миллионов жителей РФ), то он предпочтет доступ по индексу, так как это будет много быстрее, нежели читать таблицу целиком. С другой стороны, если выбирать данные по одному или нескольким большим городам, которые в сумме дадут несколько десятков миллионов записей, то в этом случае, наоборот, результат получается быстрее не при использовании доступа по индексу, а после прочтения всей таблицы целиком. Это очень упрощенный пример, но достаточный для того, чтобы показать, как статистика способна влиять на решения, принимаемые оптимизатором.

В предыдущей статье мы рассказывали, что в СУБД Teradata нет хинтов оптимизатора. Это означает, что оптимизатор запросов принимает все решения, основываясь на объективной информации, которая ему доступна. В расчет берется: количество AMP’ов в системе, количество узлов, количество и типы процессоров, доступная в данный момент память, типы дисков и многое другое, включая демографию данных. Демографическая информация, которую мы и называем статистикой, включает в себя количество строк в таблице, средний размер строки, количество строк с одним и тем же значением колонки, количество NULL’ов и прочее. Знание этих параметров также позволяет оптимизатору правильно рассчитывать размеры временной памяти (spool), выделяемой запросу для проведения преобразований данных.

Аналогично статистике по отдельным колонкам возможен сбор статистики по индексам. Принципы абсолютно те же.

Статистику распределения данных часто надо отслеживать не только по какому-то одному полю таблицы, а часто и по комбинациям полей. Например, вы часто запрашиваете людей, у которых фамилия Иванов и живут они в том же Белозерске. Если собрать отдельно статистику по фамилии и отдельно по городу, то это не даст хорошей информации оптимизатору, т.к. людей с фамилией Иванов может быть 1 млн., жителей Белозерска 10 тыс., а в комбинации будет много меньше. Поэтому необходимо собирать статистику по сочетанию полей. Причем для Teradata абсолютно неважен порядок полей, если собрать статистику по «Фамилии, Городу» и «Городу, Фамилии», результат будет одинаков (чтобы понять, почему это так – просто посмотрите еще раз на то, какие демографические показатели используются).

Как статистика хранится в СУБД

Собранная статистика хранится в словаре (DBC.TVFields, DBC.Indexes и DBC.StatsTbl для 14-й версии) и с точки зрения СУБД представляет собой интервальные гистограммы. Чем больше в последней число интервалов, тем более точно она может отражать распределение данных. Так, в Teradata 13.10 максимальное число интервалов в гистограмме равно 200, что примерно дает 0.5% данных в каждом интервале. При этом можно вспомнить эпиграф к этой статье и понять, что статистика показывает некоторую среднюю температуру по больнице. Количество строк в каждом интервале может варьироваться. Например: в таблице 1 млн. строк, значит, в среднем в одном интервале будет 5000 строк при условии 200 интервалов в гистограмме. Допустим, что в одном из интервалов на одно значение приходится 4900 строк, а на следующее значение – 300 строк. Может статься, что эти строки будут помещены в один интервал и оценка количества строк в нем будет 4900+300=5200. А может случиться так, что 300 строк будут помещены в следующий интервал и тогда в предыдущем окажется всего 4900.

Если какое-то значение встречается более чем в 0.25% строк, то оно сохраняется в специальных интервалах, отведенных под часто встречающиеся значения. Справедливости ради надо сказать, что количество интервалов растет от версии к версии. Начиная с версии Teradata 12 количество интервалов было увеличено со 100 до 200, а в Teradata 14 по умолчанию число интервалов равно 250 и его можно увеличить вплоть до 500.

Сбор статистики

В дополнение к организационным ограничениям, для минимизации нагрузки на систему можно использовать сбор статистик с использованием сэмплирования (COLLECT STATISTICS USING SAMPLE с опциональным указанием % строк). В этом случае Teradata сначала выполняет запрос на получение случайного набора строк. Для этого может использоваться TOP n или SAMPLE (для секционированных таблиц). Строки, полученные в результате, используются для последующей агрегации и создания гистограмм. Однако пользоваться сэмплированием можно лишь в случае когда есть уверенность в том, что рассматриваемая часть данных (сэмпл) таблицы адекватно предоставляет демографию всей таблицы для тех колонок, для которых планируется использовать сбор сэмпловой статистики. Если это не так, то нужно собирать полную статистику.

Как статистика используется

Итак, статистики собраны. Как оптимизатор будет их использовать? Ниже приведена диаграмма, описывающая процесс оптимизации запроса с учетом статистик:
Для чего собирают статистические данные. Смотреть фото Для чего собирают статистические данные. Смотреть картинку Для чего собирают статистические данные. Картинка про Для чего собирают статистические данные. Фото Для чего собирают статистические данные

«ребят, никакая статистика никогда не бывает полной – у оптимизатора нет полной информации о том, сколько записей вернёт каждый подзапрос в плане, особенно если критерии отбора достаточно сложные».

Еще одно назначение получаемых данным методом статистик – детектирование устаревания статистик, собираемых пользователями. Оно определяется путем сравнения числа строк таблицы, полученных при динамическом сборе статистик с хранимым значением. При отклонении более чем на 10% статистика считается устаревшей. При идентификации статистики как устаревшей Teradata может компенсировать это, экстраполировав собранные пользователем статистики.

Дополнительная информация

Как часто следует собирать статистики? Здесь всё зависит от того, насколько значительно меняются данные с течением времени. Как правило, если данные в таблице изменились более чем на 5-10%, то нужно обновить статистику по этой таблице, чтобы оптимизатор знал об этих изменениях.

Отдельно следует обратить внимание на то, что Teradata не обновляет статистику автоматически без Вашего ведома. Вы сами контролируете, когда и как запускать сбор статистики. Эти рекомендации представляют собой некий базис. Полный же процесс оптимизации физических структур («физического дизайна», как мы его называем) – достаточно творческий и состоит не только из работы со статистикой. Впрочем, это уже предмет отдельной статьи 🙂

Источник

Сделали вывод

Для чего нам нужны статистические данные

Заболеваемость, перепись населения, продажа автомобилей, банкротство, браки, научные открытия и поисковые запросы со словом «кот» — без анализа данных сегодня не принимается ни одного серьезного решения, будь то политика, экономика, медиа или наука. Статистическая информация может спасти исследование, а ее фальсификация — навсегда разрушить карьеру. Редакция N + 1 вместе с Росстатом вспоминает, когда верно собранные статистические данные приводили к положительным изменениям.

Научное направление, в основе которого лежит выявление закономерностей общественной жизни с помощью изучения информации о массовых явлениях, появилось в середине XVII века в Англии. И называлось оно «политическая арифметика».

Термин «статистика» ввел немецкий ученый Готфрид Ахенваль в 1746 году — он предложил заменить название курса «Государствоведение», который входил в образовательную программу университетов Германии, на «Статистику».

Сегодня статистика — это наука, в которой на основании определенных методов и принципов излагаются общие вопросы сбора, измерения, мониторинга и анализа количественных или качественных данных и их сравнение. По сути, статистика — это способ общества изучить себя и то, что происходит вокруг.

Статистические данные важно учитывать во всех сферах. В зависимости от области, в которой проводится исследование, можно выделить несколько направлений в статистике: социальная, экономическая, демографическая, промышленная, медицинская, торговая и другие.

Мы вас всех посчитаем

Зачем нужна перепись населения

Почти у каждого государства существует собственная статистическая служба. Мировая статистика строится на основополагающих принципах ООН. В России за официальную статистическую информацию отвечает Федеральная служба государственной статистики. Ее специалисты занимаются масштабными исследованиями, в частности, переписью населения.

Перепись — это сбор данных, массовое анкетирование всех жителей страны — нечто вроде снимка населения в конкретный момент времени. Как правило, проводится она один раз в десять лет или чаще: например, в Канаде перепись проходит один раз в пять лет.

Чтобы строить планы на будущее и верно распределять федеральные и региональные бюджеты, государству нужно понимать численность населения, состав и условия жизни. Данные переписи виляют на здравоохранение и образование, пенсию, жилищные условия, социальную поддержку и многое другое.

Так, например, благодаря переписи населения выяснилось, что люди в России, как и во всем мире, стали позже заключать брак и рожать первого ребенка. Если проанализировать эти данные, можно точнее спрогнозировать рождаемость. Именно результаты переписи населения 2002 года стали основным аргументом в пользу введения материнского капитала.

Результаты переписи могут не только оправдать прогнозы, но и удивлять. Так, например, в России после переписи 2002 года выяснилось, что женщин в стране на 10 миллионов больше, чем мужчин. Но по прогнозу Росстата, кратное превосходство женщин над мужчинами постепенно будет выравниваться.

Перепись населения в США в 2020 году впервые показала, что белое население сократилось. А по данным переписей в Восточной и Южной Азии выяснилось, что рост населения Китая замедляется и по численности населения его обгонит Индия.

Время и деньги

Как статистика влияет на бизнес

Статистические исследования помогают бизнесу: благодаря им можно получить данные о реальном состоянии рынка, его структуре, векторах его развития и понять то, какие факторы оказывают влияние на отрасль. Например, метод «прогнозирование прибыли» объединяет бизнес-статистику и предугадывание увеличения доходов. Так сопоставляются пики продаж и происходящие в это время события, скажем, рост спроса на кондиционеры и мороженое объясняется сильной жарой.

Другой пример использования статистики в бизнесе — недавнее исследование Джузеппе Москарини (Giuseppe Moscarini) из Йельского университета, которое выявило, что низкий уровень безработицы плохо сказывается на экономике. Согласно полученным данным, американцы, которые часто меняют работу, в среднем зарабатывают на 4 процента больше тех, кто остается на прежнем месте. То есть чем чаще люди меняют работу, тем быстрее растут зарплаты. Главная причина здесь — конкуренция. Исследование Организации стран экономического сотрудничества и развития показало, что после финансового кризиса сотрудники стали переходить на новые места работы в разы реже.

Для чего собирают статистические данные. Смотреть фото Для чего собирают статистические данные. Смотреть картинку Для чего собирают статистические данные. Картинка про Для чего собирают статистические данные. Фото Для чего собирают статистические данные

Долго-долго жить

Как статистика используется в медицине

Статистика имеет огромное значение в медицине и здравоохранении, она помогает рассчитать равенство в доступе к медицинской помощи. Так, в Бангладеше введение мониторинга и оценки данных позволило оптимизировать систему здравоохранения и и верно распределить ресурсы для улучшения оказания медицинской помощи.

Благодаря статистике можно оценить уровень смертности, среднюю продолжительность жизни населения и другие важные показатели. По данным Всемирной ассоциации здравоохранения, ожидаемая продолжительность жизни в мире в период с 2000 по 2016 год увеличилась на 5,5 лет, с 66,5 до 72 лет. При этом по статистике женщины живут дольше мужчин.

Мужчины в целом реже обращаются за медицинской помощью. Кроме того, в странах с эпидемией ВИЧ женщины чаще сдают анализы на это заболевание и регулярно получают антиретровирусную терапию. Еще выяснилось, что в 2016 году уровень смертности от самоубийств среди мужчин в мире был на 75 процентов выше, чем среди женщин.

Исследования также выявили зависимость продолжительности жизни человека от уровня жизни в стране и материального достатка — в странах с низким уровнем жизни люди в среднем живут на 18 лет меньше.

«Все эти статистические данные подчеркивают необходимость в первую очередь уделять внимание медико-санитарной помощи для лечения неинфекционных заболеваний и ограничения факторов риска, — рассказала помощник генерального директора ВОЗ по данным, аналитике и доставке Самира Асма (Samira Asma). — Например, такая простая вещь, как контроль артериального давления, просто не осуществляется в необходимом масштабе, а употребление табака остается основной причиной преждевременной смерти».

Синтаксические связи

Как статистика помогает лингвистам

Статистические данные могут касаться и неочевидных сфер жизни. Например, лингвистики. Так, статистика в лингвистике помогла языковедам разобраться в пересечениях синтаксических связей. Испанские исследователи нашли статистическую модель, которая может предсказать, с какой вероятностью в предложениях между зависимыми словами пересекаются синтаксические связи.

Всемирный день статистики проходит 20 октября по установке Статистической комиссии ООН. Дата отмечается раз в пять лет. В 2020 году день статистики прошел под девизом «Объединим мир при помощи данных, которым мы можем доверять».

Источник

Статистические данные в жизни

Введение

Актуальность темы заключается в том, что статистические представления являются важнейшей составляющей интеллектуального багажа современного человека. Они нужны в повседневной жизни, так как в нашу жизнь властно вошли выборы и референдумы, банковские кредиты и страховые полисы, таблицы занятости и диаграммы социологических опросов, нужны и для продолжения образования в таких областях, как социология, экономика, право, медицина, демография и других.

Таблицы и диаграммы широко используются в справочной литературе, в средствах массовой информации. Государственные и коммерческие структуры регулярно собирают обширные сведения об обществе и окружающей среде. Эти данные публикуют в виде таблиц и диаграмм.

Общество всё глубже начинает изучать себя и стремится сделать прогнозы о самом себе и о явлениях природы, которые требуют представлений о вероятности. Каждый человек должен хорошо ориентироваться в потоке информации.

Мы должны научиться жить в вероятной ситуации. А это, значит, извлекать, анализировать и обрабатывать информацию, принимать обоснованные решения в разнообразных ситуациях со случайными исходами.

Объектом исследования выбрали свой класс.

Задачи исследования:

1. Изучить литературу по данной теме.

2. Собрать информацию для подтверждения статистических характеристик.

3. Обработать данную информацию.

4. Интерпретировать результаты статистических исследований.

5. Наглядно представить полученную информацию.

Методы исследования: анализ литературы, анкетирование, статистический опрос, статистическая обработка полученных данных, анализ, сравнение полученных результатов.

Этапы работы:

1. Анализ учебной и дополнительной литературы по данному вопросу.

2. Проведение анкетирования, опроса среди учащихся 9А класса.

3. Обработка полученных данных, построение графиков и диаграмм.

План работы (исследования):

1. Анализ учебной и дополнительной литературы по данному вопросу.

2. Проведение анкетирования, опроса среди учащихся 9А класса.

3. Обработка полученных данных, построение графиков и диаграмм.

4. Анализ, обобщение и сравнение полученных результатов.

Методика и материалы.

1. Составление анкет для опроса общественного мнения.

2. Сбор материала по исследуемой теме.

3. Анализ собранного материала.

4. Интерпретация статистических результатов.

5. Наглядное представление результатов статистических исследований.

Вопросы для опроса:

1. Любимый предмет учащихся.

2. Рост и вес учащихся за 2013-2014 гг., 2014- 2015 гг., 2015-2016 гг.

3. Любимые телепередачи родителей и учащихся.

4. Любимая передача учащихся.

5. Размер обуви учащихся.

6. Любимый певец или певица учащихся.

7. Успеваемость учащихся за 1 полугодие за 2015-2016 учебный год по основным предметам.

2. Статистика

2.1. Что такое статистика

Статистика (от латинского status) –наука изучающая, обрабатывающая и анализирующая количественные данные о самых разнообразных массовых явлениях в жизни.

Термин «статистика» появился в середине 18 века. Означал «государствоведение». Получил распространение в монастырях. Постепенно приобрел собирательное значение. С одной стороны, статистика – это совокупность числовых показателей, характеризующих общественные явления и процессы (статистика труда, статистика транспорта).

С другой – под статистикой понимается практическая деятельность по сбору, обработке, анализу данных по различным направлениям общественной жизни.

С третьей стороны, статистика – это итоги массового учета, опубликованные в различных сборниках. Наконец, в естественных науках статистикой называются методы и способы оценки соответствия данных массового наблюдения математическим формулам. Таким образом, статистика – это общественная наука, изучающая количественную сторону массовых общественных явлений в неразрывной связи с их качественной стороной.

2.2. Виды статистики

Виды статистики: финансовая, биологическая, экономическая, медицинская, налоговая, метеорологическая, демографическая. Математическая статистика – раздел математики, изучающий математические методы обработки и использования статистических данных для научных и практических выводов.

2.3. Статистические характеристики

Основными статистическими характеристиками являются среднее арифметическое, мода, размах, медиана.

Средним арифметическим ряда чисел называется частное от деления суммы этих чисел на их количество.

Размах – это разность наибольшего и наименьшего значений ряда данных.

Медианой ряда, состоящего из нечетного количества чисел, называется число данного ряда, которое окажется посередине, если этот ряд упорядочить.

2.4. Обработка информации

Методы сбора и обработки числовых данных в каких-либо конкретных областях науки составляют предмет соответствующей специальной статистики, например физической, звездной, экономической, медицинской, демографической и т. п. Формальная математическая сторона статистических методов анализа, не зависящая от специфики изучаемых объектов и конкретной области знаний, составляет предмет собственно математической статистики. Статистическое наблюдение – это сбор необходимых данных по явлениям, процессам общественной жизни. Можно провести опрос общественного мнения, найти центральные тенденции ряда данных: среднее арифметическое, моду, медиану, размах; дать интерпретацию результатам статистических исследований и наглядно представить полученную информацию.

Но это не всякий сбор данных, а лишь планомерный, научно организованный, систематический и направленный на регистрацию признаков, характерных для исследуемых явлений и процессов. От качества данных, полученных на первом этапе, зависят конечные результаты исследования.

Для изучения различных общественных и социально-экономических явлений, а также некоторых процессов, происходящих в природе, проводят специальные статистические исследования. Методы исследования: анализ литературы, анкетирование, статистический опрос, статистическая обработка полученных данных, анализ, сравнение полученных результатов.

Всякое статистическое исследование начинается с целенаправленного сбора информации об изучаемом явлении или процессе.

Прохождение каждой стадии связано с использованием специальных методов, объясняемых содержанием выполняемой работы.

Способы статистического наблюдения

2.5. Графическое представление данных

Современную науку невозможно представить без применения графиков. Они стали средством научного обобщения.

Выразительность, доходчивость, лаконичность, универсальность, обозримость графических изображений сделали их незаменимыми в исследовательской работе и в международных сравнениях и сопоставлениях социально-экономических явлений.

Значение графического метода в анализе и обобщении данных велико. Графическое изображение прежде всего позволяет осуществить контроль достоверности статистических показателей, так как, представленные на графике, они более ярко показывают имеющиеся неточности, связанные либо с наличием ошибок наблюдения, либо с сущностью изучаемого явления. С помощью графического изображения возможны изучение закономерностей развития явления, установление существующих взаимосвязей. Простое сопоставление данных не всегда дает возможность уловить наличие причинных зависимостей, в то же время их графическое изображение способствует выявлению причинных связей, в особенности в случае установления первоначальных гипотез, подлежащих затем дальнейшей разработке. Графики также широко используются для изучения структуры явлений, их изменения во времени и размещения в пространстве. В них более выразительно проявляются сравниваемые характеристики и отчетливо видны основные тенденции развития и взаимосвязи, присущие изучаемому явлению или процессу.

При построении графического изображения следует соблюдать требования. Прежде всего график должен быть достаточно наглядным, так как весь смысл графического изображения как метода анализа в том и состоит, чтобы наглядно изобразить статистические показатели.

Способы графического представления данных: диаграммы, гистограммы, графики.

Более распространенным способом графического изображения структуры статистических совокупностей является секторная диаграмма, которая считается основной формой диаграммы такого назначения. Это объясняется тем, что идея целого очень хорошо и наглядно выражается кругом, который представляет всю совокупность. Удельный вес каждой части совокупности в секторной диаграмме характеризуется величиной центрального угла (угол между радиусами круга). Сумма всех углов круга, равная 360°, приравнивается к 100%, а следовательно, 1% принимается равным 3,6°.

Для наглядного изображения явлений в рядах динамики используются диаграммы: столбиковые, ленточные, квадратные, круговые, линейные, радиальные и др. Выбор вида диаграммы зависит в основном от особенностей исходных данных, цели исследования.

Когда число уровней в ряду динамики велико, целесообразно применять линейные диаграммы, которые воспроизводят непрерывность процесса развития в виде непрерывной ломаной линии. Кроме того, линейные диаграммы удобно использовать: если целью исследования является изображение общей тенденции и характера развития явления; когда на одном графике необходимо изобразить несколько динамических рядов с целью их сравнения; если наиболее существенным является сопоставление темпов роста, а не уровней. Для построения линейных графиков применяют систему прямоугольных координат.

Полигон иллюстрирует динамику изменения статистических данных со временем, позволяет судить о значениях величины в определённых точках, по нему нельзя найти значение этой величины в промежуточных точках.

Для изображения интервального ряда используется гистограмма – ступенчатая фигура, составленная из сомкнутых прямоугольников. Основание каждого прямоугольника равно длине интервала, а высота – частоте или относительной частоте.

Практическая часть

Заключение

Проводя своё исследование, я ещё раз убедилась, что математика прочно вошла в мою повседневную жизнь, и я уже не замечаю, что живу по её законам. В этом учебном году я начала изучение статистических характеристик и их наглядное представление. В ходе исследования научилась систематизировать, наглядно представлять данные, обобщать и делать выводы.

Роль статистики в жизни настолько значительна, что люди, часто не задумываясь и не осознавая, постоянно используют элементы статистической методологии не только в трудовых процессах, но и в повседневном быту. Работая и отдыхая, делая покупки, знакомясь с другими людьми, принимая какие-то решения, человек пользуется определённой системой имеющихся у него сведений, сложившихся вкусов и привычек, фактов, систематизирует, сопоставляет эти факты, анализирует их, делает выводы и принимает определённые решения, предпринимает конкретные действия. Таким образом, в каждом человеке заложены элементы статистического мышления, представляющего собой способности к анализу и синтезу информации об окружающем нас мире.

Но надо помнить, одну и ту же статистическую информацию люди могут трактовать по-разному и то, что если я хочу увидеть достоверную информацию, лучше находить не один показатель, а два, а лучше всего все четыре: среднее арифметическое, моду, медиану и размах.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *