Для чего используется формула байеса

Теорема Байеса: из-за чего весь сыр-бор?

Теорему Байеса называют мощным методом создания нового знания, но её можно использовать и для рекламы суеверий и псевдонауки

Для чего используется формула байеса. Смотреть фото Для чего используется формула байеса. Смотреть картинку Для чего используется формула байеса. Картинка про Для чего используется формула байеса. Фото Для чего используется формула байеса

Теорема Байеса стала такой популярной, что её даже показали в телешоу «Теория Большого взрыва». Но, как и любой инструмент, её можно использовать во благо или во вред.

Не знаю точно, когда впервые я услышал про неё. Но по-настоящему я начал проявлять интерес к ней только в последние лет десять, после того, как несколько самых больших ботанов из моих студентов начали рекламировать её как волшебного проводника в жизни.

Разглагольствования студентов запутали меня, как и объяснения теоремы на Википедии и других сайтах – они были либо совсем тупые, либо слишком сложные. Я решил, что Байес – преходящая причуда, и в глубоких исследованиях смысла нет. Но теперь байесовская лихорадка стала слишком назойливой, чтобы её игнорировать.

Как пишет The New York Times, байесовская статистика «проникает везде, от физики до исследований рака, от экологии до психологии». Физики предложили байесовские трактовки квантовой механики и байесовские защиты теории струн и теории мультивселенных. Философы рассуждают о том, что всю науку в целом можно рассматривать, как байесовский процесс, и что Байес помогает отличить науку от псевдонауки лучше, чем метод фальсифицируемости, популяризованный Карлом Поппером.

Исследователи искусственного интеллекта, включая разработчиков робомобилей в Google, применяют ПО Байеса, чтобы помогать машинам распознавать закономерности и принимать решения. Байесовские программы, согласно Шэрон Бёрщ Макгрейн [Sharon Bertsch McGrayne], автору популярной истории теоремы Байеса, «сортируют емейл и спам, оценивают медицинские риски и государственную безопасность, расшифровывают ДНК, прочее». На сайте Edge.org физик Джон Мэтер беспокоится, что байесовые машины могут стать настолько умными, что вытеснят людей.

Когнитивисты предполагают, что в нашем мозге работают алгоритмы Байеса, когда он ощущает, размышляет и принимает решения. В ноябре учёные и философы изучали эту возможность на конференции в Нью-Йоркском университете под названием «Работает ли мозг по Байесу?»

Фанатики настаивают, что если бы больше людей приняло метод мышления Байеса (вместо бессознательной работы по Байесу, которая, якобы, идёт в мозге), мир был бы гораздо лучше. В статье «Интуитивное объяснение теоремы Байеса» теоретик ИИ Элизер Юдковский говорит об обожании Байеса:

«Почему математическая концепция вызывает такой странный энтузиазм среди её изучающих? Что есть т.н. „байесовская революция“, которая прокатывается по различным областям науки, заявляющая о поглощении даже экспериментальных методов как особых случаев? Что за секрет известен приверженцам Байеса? Какой свет они увидели? Скоро вы узнаете. Скоро вы будете одним из нас». Юдковский шутит. Или нет?

Из-за всей этой шумихи я попытался раз и навсегда разобраться с Байесом. Лучшие из объяснений теоремы среди бесчисленного их множества в интернете я нашёл у Юдковского, в Википедии и в работах философа Кёртиса Брауна и специалистов по информатике Оскара Бонилла и Калида Азада. Сейчас я попытаюсь, в основном и для себя тоже, объяснить, в чём суть теоремы.

Теорема Байеса, названная так в честь пресвитерианского священника XVIII века Томаса Байеса [правильная транскрипция – Бейз / прим. перев.] – это метод подсчёта обоснованности верований (гипотез, заявлений, предложений) на основе имеющихся доказательств (наблюдений, данных, информации). Наипростейшая версия звучит так:

изначальная вера + новые свидетельства = новая, улучшенная вера

Если подробнее: вероятность того, что убеждение истинно с учётом новых свидетельств равна вероятности того, что убеждение было истинно без этих свидетельств, помноженной на вероятность того, что свидетельства истинны в случае истинности убеждений, и делённой на вероятность того, что свидетельства истинны вне зависимости от истинности убеждений. Понятно?

Простая математическая формула выглядит так:

Где P – вероятность, B – убеждение, E – свидетельства. P(B) – вероятность того, что B – истинно, P(E) – вероятность того, что E истинно. P(B|E) – вероятность B в случае истинности E, а P(E|B) – вероятность E в случае истинности B.

Для демонстрации работы формулы часто используют пример с медицинскими анализами. Допустим, вас проверяют на наличие рака, который появляется у 1% людей вашего возраста. Если тест на 100% надёжен, то вам не нужна теорема Байеса, чтобы понять, что означает положительный результат – но давайте просто посмотрим на такую ситуацию для примера.

Чтобы подсчитать значение P(B|E), нужно разместить данные в правой части уравнения. P(B), вероятность того, что у вас рак до тестирования, равна 1%, или 0,01. Такова же и P(E), вероятность того, что результат теста будет положительным. Так как они стоят в числителе и знаменателе, они сокращаются, и остаётся P(B|E) = P(E|B) = 1. Если результат анализов будет положительный, у вас рак, и наоборот.

В реальном мире надёжность анализов редко достигает 100%. Допустим, ваш тест надёжен на 99%. То есть, 99 из 100 человек, больных раком, получат положительный результат, и 99 здоровых людей из 100 получат отрицательный результат. И это всё равно будет удивительно надёжный тест. Вопрос: если ваш тест положительный, какова вероятность того, что у вас рак?

Вот теперь теорема Байеса показывает всю мощь. Большинство людей посчитают, что ответ — 99%, или где-то так. Ведь тест настолько надёжен, верно? Но правильный ответ будет – всего лишь 50%.

Чтобы узнать, почему, вставьте данные в правую часть уравнения. P(B) всё ещё равна 0,01. P(E|B), вероятность получить положительный тест в случае рака, равна 0,99. P(B) * P(E|B) = 0,01 * 0,99 = 0,0099. Такова вероятность того, что вы получите положительный тест, показывающий, что вы больны.

Что насчёт знаменателя, P(E)? Тут есть небольшая хитрость. P(E) – вероятность получить положительный тест вне зависимости от того, больны ли вы. Иначе говоря, в неё входят ложные положительные срабатывания и истинные положительные срабатывания.

Чтобы подсчитать вероятность ложного положительного срабатывания, нужно умножить количество ложных срабатываний, 1% или 0,01, на процент людей, не больных раком – 0,99. Получается 0,0099. Да, ваш отличный тест с 99%-й точностью выдаёт столько же ложных срабатываний, сколько и истинных.

Закончим подсчёты. Чтобы получить P(E), сложим истинные и ложные срабатывания, получим 0,0198, поделим на это 0,0099, и получим 0,5. Итак, P(B|E), вероятность того, что у вас есть рак в случае положительного теста, равна 50%.

Если вы ещё раз пройдёте тест, то можете кардинально уменьшить неопределённость, поскольку вероятность наличия у вас рака P(B) будет уже 50% вместо 1. Если второй тест тоже будет положительным, по теореме Байеса вероятность наличия у вас рака будет равна 99%, или 0,99. Как показывает этот пример, повторение теоремы может дать очень точный ответ.

Но если надёжность теста 90%, что совсем неплохо, шансы на наличие у вас рака даже в случае дважды полученных положительных результатов всё ещё меньше 50%.

Большинство людей, включая врачей, с трудом понимают это распределение шансов, что объясняет излишнее количество диагнозов и лечений рака и других болезней. Этот пример говорит о том, что байесианцы правы: мир был бы лучше, если бы больше людей – хотя бы больше пациентов и врачей – приняли бы байесовскую логику.

С другой стороны, теорема Байеса – это лишь сведение в кодекс здравого смысла. Как пишет Юдковский к концу своего обучающего материала: «К этому моменту теорема Байеса может казаться совершенно очевидной и напоминать тавтологию, вместо того чтобы быть удивительной и новой. В таком случае это введение достигло своей цели».

Возвращаясь к примеру с раком: теорема Байеса говорит, что вероятность наличия у вас рака в случае положительных результатов теста равна вероятности получения истинного положительного результата, делённой на вероятность всех положительных результатов, истинных и ложных. В общем, остерегайтесь ложных положительных результатов.

Вот моё обобщение этого принципа: достоверность вашего убеждения зависит от того, насколько сильно ваше убеждение объясняет существующие факты. Чем больше вариантов объяснения фактов, тем менее достоверно ваше личное убеждение. С моей точки зрения, в этом состоит суть теоремы.

«Альтернативные объяснения» могут включать в себя много всего. Ваши факты могут быть ложными, полученными при помощи неправильно сработавшего инструмента, неверного анализа, склонности к получению нужного результата и даже подделанными. Ваши факты могут быть точными, но их могут объяснять множество других убеждений или гипотез.

Иначе говоря, в теореме Байеса нет никакого волшебства. Всё сводится к тому, что ваши убеждения достоверны настолько, насколько верны свидетельства в их пользу. Если у вас есть хорошие доказательства, теорема выдаёт годные результаты. Если доказательства так себе, теорема вам не поможет. Мусор на входе, мусор на выходе.

Проблемы с теоремой могут начинаться с величины P(B), изначального предположения по поводу вероятности ваших убеждений, часто называемой априорной вероятностью. В примере выше у нас была красивая и точная априорная вероятность 0,01. В реальном мире эксперты спорят по поводу того, как диагностировать и учитывать рак. Ваша априорная вероятность, скорее всего, будет состоять из диапазона, а не из одного числа.

Во многих случаях оценка априорной вероятности основывается лишь на догадках, и позволяет субъективным факторам вкрадываться в подсчёты. Можно догадываться, что вероятность существования чего-либо – в отличие от того же рака – просто нулевая, к примеру, струн, мультивселенной, инфляции или бога. Вы можете ссылаться на сомнительные подтверждения сомнительной веры. В таких случаях теорема Байеса может рекламировать псевдонауку и суеверия, наряду со здравым смыслом.

В теореме содержится назидание: если вы недостаточно скрупулёзно ищете альтернативные объяснения имеющихся свидетельств, то свидетельство лишь подтвердит то, во что вы уже верите. Учёные часто упускают это из вида, что объясняет, почему такое большое количество научных заявлений оказываются неверны. Байесианцы утверждают, что их методы могут помочь учёным преодолеть склонность к поискам подтверждающих их веру фактов и выдавать больше надёжных результатов – но я в этом сомневаюсь.

Как я уже упоминал, некоторые энтузиасты теории струн и мультивселенных используют байесовский анализ. Почему? Потому что энтузиасты устали слышать о том, что теория струн и теория мультивселенной нефальсифицируемы, а следовательно, ненаучны. Теорема Байеса позволяет им представить эти теории в лучшем свете. В этих случаях теорема не уничтожает предвзятость, а потакает ей.

Как писал журналист, работающий с научно-популярными темами, Фэй Флэм в The New York Times, байесовская статистика «не может спасти нас от плохой науки». Теорема Байеса универсальна и может служить любой цели. Выдающийся специалист по байесовской статистике Дональд Рубин работал консультантом табачных компаний на судебных процессах, связанных с полученными от курения заболеваниями.

И всё же я восхищаюсь теоремой Байеса. Она напоминает мне теорию эволюции, ещё одну идею, кажущуюся до тавтологии простой или удручающе глубокой, в зависимости от точки зрения, и точно так же вдохновившую людей как на всякий вздор, так и на удивительные открытия.

Возможно, оттого, что мой мозг работает по Байесу, мне повсюду начинают видеться аллюзии на эту теорему. Пролистывая собрание сочинений Эдгара Аллана По на своём Kindle, я наткнулся на следующее предложение из «Повести о приключениях Артура Гордона Пима»: «В силу наших пристрастий или предубеждений мы не способны извлекать урок даже из самых очевидных вещей» [пер. Георгий Павлович Злобин].

Учитывайте это перед тем, как записываться в приверженцы Байеса.

Источник

Как применять теорему Байеса для решения реальных задач

Для чего используется формула байеса. Смотреть фото Для чего используется формула байеса. Смотреть картинку Для чего используется формула байеса. Картинка про Для чего используется формула байеса. Фото Для чего используется формула байеса

Возможно, вы никогда не слышали про теорему Байеса, но пользовались ей постоянно. Например, изначально вы оценили вероятность получения прибавки к зарплате как 50%. Получив положительные отзывы от менеджера, вы скорректировали оценку в лучшую сторону, и, наоборот, уменьшили ее, если сломали кофеварку на работе. Так происходит уточнение значения вероятности по мере аккумулирования информации.

Основная идея теоремы Байеса состоит в том, чтобы получить большую точность оценки вероятности события путем учета дополнительных данных.

Принцип прост: есть первоначальная основная оценка вероятности, которую уточняют c получением большего количества информации.

Формула Байеса

Интуитивные действия формализуются в простом, но мощном уравнении (формула вероятности Байеса):

Для чего используется формула байеса. Смотреть фото Для чего используется формула байеса. Смотреть картинку Для чего используется формула байеса. Картинка про Для чего используется формула байеса. Фото Для чего используется формула байеса

Левая часть уравнения — апостериорная оценка вероятности события А при условии наступления события В (т. н. условная вероятность).

Это короткое уравнение является основой байесовского метода.

Абстрактность событий А и В не позволяет четко осознать смысл этой формулы. Для понимания сути теоремы Байеса рассмотрим реальную задачу.

Пример

Одной из тем, над которой я работаю, является изучение моделей сна. У меня есть данные за два месяца, записанные с помощью моих часов Garmin Vivosmart, показывающие, во сколько я засыпаю и просыпаюсь. Окончательная модель, показывающая наиболее вероятное распределение вероятности сна как функцию времени (MCMC — приблизительный метод), приведена ниже.

Для чего используется формула байеса. Смотреть фото Для чего используется формула байеса. Смотреть картинку Для чего используется формула байеса. Картинка про Для чего используется формула байеса. Фото Для чего используется формула байеса

На графике приведена вероятность того, что я сплю, в зависимости лишь от времени. Как она изменится, если учесть время, в течение которого включен свет в спальне? Для уточнения оценки и нужна теорема Байеса. Уточненная оценка основана на априорной и имеет вид:

Для чего используется формула байеса. Смотреть фото Для чего используется формула байеса. Смотреть картинку Для чего используется формула байеса. Картинка про Для чего используется формула байеса. Фото Для чего используется формула байеса

Выражение слева — вероятность того, что я сплю, при условии, что известно, включен ли свет в моей спальне. Априорная оценка в данный момент времени (приведена на графике выше) обозначена как P(sleep). Например, в 10:00 вечера априорная вероятность того, что я сплю, равна 27,34%.

Добавим больше информации, используя вероятность P(bedroom light|sleep), полученную из наблюдаемых данных.

Из собственных наблюдений мне известно следующее: вероятность того, что я сплю, когда свет включен, равна 1%.

Для чего используется формула байеса. Смотреть фото Для чего используется формула байеса. Смотреть картинку Для чего используется формула байеса. Картинка про Для чего используется формула байеса. Фото Для чего используется формула байеса

Вероятность того, что свет выключен во время сна, равна 1-0,01 = 0,99 (знак «-» в формуле означает противоположное событие), потому что сумма вероятностей противоположных событий равна 1. Когда я сплю, то свет в спальне либо включен, либо выключен.

Наконец, уравнение также включает в себя константу нормировки P(light) — вероятность того, что свет включен. Свет бывает включен и когда я сплю, и когда бодрствую. Поэтому, зная априорную вероятность сна, вычислим константу нормировки так:

Для чего используется формула байеса. Смотреть фото Для чего используется формула байеса. Смотреть картинку Для чего используется формула байеса. Картинка про Для чего используется формула байеса. Фото Для чего используется формула байеса

Вероятность того, что свет включен, учтена в обоих вариантах: либо я сплю, либо нет (P (-sleep) = 1 — P (sleep) — это вероятность того, что я не сплю.)

Вероятность того, что свет включен в тот момент, когда я не сплю, равна P(light|-sleep), и определяется путем наблюдения. Мне известно, что свет горит, когда я бодрствую, с вероятностью 80% (это означает, что есть 20% вероятность того, что свет не включен, если я бодрствую).

Окончательное уравнение Байеса принимает вид:

Для чего используется формула байеса. Смотреть фото Для чего используется формула байеса. Смотреть картинку Для чего используется формула байеса. Картинка про Для чего используется формула байеса. Фото Для чего используется формула байеса

Оно позволяет вычислить вероятность того, что я сплю, при условии, что свет включен. Если нас интересует вероятность того, что свет выключен, нужно каждую конструкцию P(light|… заменить на P(-light|….

Давайте посмотрим, как используют полученные символьные уравнения на практике.

Применим формулу к моменту времени 22:30 и учтем, что свет включен. Мы знаем, вероятность того, что я спал, равна 73,90%. Это число — отправная точка для нашей оценки.

Уточним его, учтя информацию об освещении. Зная, что свет включен, подставим числа в формулу Байеса:

Для чего используется формула байеса. Смотреть фото Для чего используется формула байеса. Смотреть картинку Для чего используется формула байеса. Картинка про Для чего используется формула байеса. Фото Для чего используется формула байеса

Дополнительные данные резко изменили оценку вероятности: от более 70% до 3,42%. Это показывает силу теоремы Байеса: мы смогли уточнить нашу первоначальную оценку ситуации, включив в нее больше информации. Возможно, мы уже интуитивно делали это раньше, но теперь, рассуждая об этом в терминах формальных уравнений, мы смогли подтвердить наши прогнозы.

Python

Рассмотрим еще один пример. Что если на часах 21:45 и свет выключен? Попытайте рассчитать вероятность самостоятельно, считая априорную оценку равной 0.1206.

Вместо того, чтобы каждый раз считать вручную, я написал простой код на Python для выполнения этих вычислений, который вы можете попробовать в Jupyter Notebook. Вы получите следующий ответ:

The prior probability of sleep: 12.06%
The updated probability of sleep: 40.44%

И снова дополнительная информация меняет нашу оценку. Теперь, если моя сестра захочет позвонить мне в 21:45 зная, что мой свет включен, она может воспользоваться этим уравнением, чтобы определить, смогу ли я взять трубку (предполагая, что я беру трубку только бодрствующим)! Кто говорит, что статистика неприменима повседневной жизни?

Визуализация вероятности

Наблюдение за вычислениями полезно, но визуализация помогает добиться более глубокого понимания результата. Я всегда стараюсь использовать графики, чтобы генерировать идеи, если они сами не приходят при простом изучении уравнений. Мы можем визуализировать априорное и апостериорное распределения вероятности сна с использованием дополнительных данных:

Для чего используется формула байеса. Смотреть фото Для чего используется формула байеса. Смотреть картинку Для чего используется формула байеса. Картинка про Для чего используется формула байеса. Фото Для чего используется формула байеса

Когда свет включен, график смещается вправо, указывая на то, что я с меньшей вероятностью сплю в данный момент времени. Аналогично, график смещается влево, если мой свет выключен. Понять смысл теоремы Байеса непросто, но эта иллюстрация наглядно демонстрирует, зачем ее нужно использовать. Формула Байеса — инструмент для уточнения прогнозов с помощью дополнительных данных.

Что, если есть еще больше данных?

Зачем останавливаться на освещении в спальне? Мы можем использовать еще больше данных в нашей модели для дальнейшего уточнения оценки (пока данные остаются полезными для рассматриваемого случая). Например, я знаю, что если мой телефон заряжается, то я сплю с вероятностью 95%. Этот факт можно учесть в нашей модели.

Предположим, что вероятность того, что мой телефон заряжается, не зависит от освещения в спальне (независимость событий — это достаточно сильное упрощение, но оно позволит сильно облегчить задачу). Составим новое, еще более точное выражение для вероятности:

Для чего используется формула байеса. Смотреть фото Для чего используется формула байеса. Смотреть картинку Для чего используется формула байеса. Картинка про Для чего используется формула байеса. Фото Для чего используется формула байеса

Получившаяся формула выглядит громоздко, но, используя код на Python, мы можем написать функцию, которая будет производить расчет. Для любого момента времени и любой комбинации наличия освещения/зарядки телефона эта функция возвращает уточненную вероятность того, что я сплю.

Пропустим математику (все равно считать будет компьютер) и перейдем к результатам:

Time is 11:00:00 PM Light is ON Phone IS NOT charging.

The prior probability of sleep: 95.52%
The updated probability of sleep: 1.74%

В 23:00 без дополнительной информации мы могли почти с полной вероятностью сказать, что я сплю. Однако, как только у нас будет дополнительная информация о том, что свет включен, а телефон не заряжается, мы заключаем, что вероятность того, что я сплю, практически равна нулю. Вот еще один пример:

Time is 10:15:00 PM Light is OFF Phone IS charging.

The prior probability of sleep: 50.79%
The updated probability of sleep: 95.10%

Вероятность смещается вниз или вверх в зависимости от конкретной ситуации. Чтобы продемонстрировать это, рассмотрим четыре конфигурации дополнительных данных и то, как они изменяют распределение вероятности:

Для чего используется формула байеса. Смотреть фото Для чего используется формула байеса. Смотреть картинку Для чего используется формула байеса. Картинка про Для чего используется формула байеса. Фото Для чего используется формула байеса

На этом графике представлено много информации, но главный смысл состоит в том, что кривая вероятности изменяется в зависимости от дополнительных факторов. По мере добавления других данных мы будем получать более точную оценку.

Заключение

Теорема Байеса и другие статистические понятия могут быть трудными для понимания, когда они представлены абстрактными уравнениями, использующими только буквы или выдуманные ситуации. Настоящее обучение приходит, когда мы применяем абстрактные понятия в реальных задачах.

Успех в области data science — это непрерывное обучение, добавление новых методов в набор навыков и поиск оптимального метода для решения задач. Теорема Байеса позволяет уточнять наши оценки вероятности с помощью дополнительной информации для более качественного моделирования реальности. Увеличение количества информации позволяет получать более точные прогнозы, и метод Байеса оказывается полезным инструментом для решения этой задачи.

Я приветствую обратную связь, дискуссию и конструктивную критику. Связаться со мной можно в Twitter: @koehrsen_will.

Может быть интересно:

Источник

Простое объяснение теоремы Байеса

Подробно теорема Байеса излагается в отдельной статье. Это замечательная работа, но в ней 15 000 слов. В этом же переводе статьи от Kalid Azad кратко объясняется самая суть теоремы.

Разберемся в методе

В статье, на которую дана ссылка в начале этого эссе, разбирается метод диагностики (маммограмма), выявляющий рак груди. Рассмотрим этот метод подробно.

Болеют (1%)Не болеют (99%)Положительный результат метода80%9,6%Отрицательный результат метода20%90,4%

Как работать с этим данными?

Насколько метод точен?

Теперь разберем положительный результат теста. Какова вероятность того, что человек действительно болен: 80%, 90%, 1%?

вероятность события = исходы события / все возможные исходы

То есть положительный результат маммограммы значит только то, что вероятность наличия заболевания – 7,8%, а не 80% (последняя величина — это лишь предполагаемая точность метода). Такой результат кажется поначалу непонятным и странным, но нужно учесть: метод дает ложноположительный результат в 9,6% случаев (а это довольно много), поэтому в выборке будет много ложноположительных результатов. Для редкого заболевания большинство положительных результатов будут ложноположительными.

Давайте пробежимся глазами по таблице и попробуем интуитивно ухватить смысл теоремы. Если у нас есть 100 человек, только у одного из них есть заболевание (1%). У этого человека с 80% вероятностью метод даст положительный результат. Из оставшихся 99% у 10% будут положительные результаты, что дает нам, грубо говоря, 10 ложноположительных исходов из 100. Если мы рассмотрим все положительные результаты, то только 1 из 11 будет верным. Таким образом, если получен положительный результат, вероятность заболевания составляет 1/11.

Выше мы посчитали, что эта вероятность равна 7,8%, т.е. число на самом деле ближе к 1/13, однако здесь с помощью простого рассуждения нам удалось найти приблизительную оценку без калькулятора.

Теорема Байеса

Теперь опишем ход наших мыслей формулой, которая и называется теоремой Байеса. Эта теорема позволяет исправить результаты исследования в соответствии с искажением, которое вносят ложноположительные результаты:

Для чего используется формула байеса. Смотреть фото Для чего используется формула байеса. Смотреть картинку Для чего используется формула байеса. Картинка про Для чего используется формула байеса. Фото Для чего используется формула байеса

Для чего используется формула байеса. Смотреть фото Для чего используется формула байеса. Смотреть картинку Для чего используется формула байеса. Картинка про Для чего используется формула байеса. Фото Для чего используется формула байеса

Pr(X) – это константа нормализации. Она сослужила нам хорошую службу: без нее положительный исход испытаний дал бы нам 80% вероятность события.
Pr(X) – это вероятность любого положительного результата, будет ли это настоящий положительный результат при исследовании больных (1%) или ложноположительный при исследовании здоровых людей (99%).

В нашем примере Pr(X) – довольно большое число, потому что велика вероятность ложноположительных результатов.

Pr(X) создает результат 7,8%, который на первый взгляд кажется противоречащим здравому смыслу.

Смысл теоремы

Мы проводим испытания, чтоб выяснить истинное положение вещей. Если наши испытания совершенны и точны, тогда вероятности испытаний и вероятности событий совпадут. Все положительные результаты будут действительно положительными, а отрицательные — отрицательными. Но мы живем в реальном мире. И в нашем мире испытания дают неверные результаты. Теорема Байеса учитывает искаженные результаты, исправляет ошибки, воссоздает генеральную совокупность и находит вероятность истинного положительного результата.

Спам-фильтр

Теорема Байеса удачно применяется в спам-фильтрах.

Для чего используется формула байеса. Смотреть фото Для чего используется формула байеса. Смотреть картинку Для чего используется формула байеса. Картинка про Для чего используется формула байеса. Фото Для чего используется формула байеса

Фильтр берет в расчет результаты испытаний (содержание в письме определенных слов) и предсказывает, содержит ли письмо спам. Всем понятно, что, например, слово «виагра» чаще встречается в спаме, чем в обычных письмах.

Фильтр спама на основе черного списка обладает недостатками — он часто выдает ложноположительные результаты.

Спам-фильтр на основе теоремы Байеса использует взвешенный и разумный подход: он работает с вероятностями. Когда мы анализируем слова в письме, мы можем рассчитать вероятность того, что письмо — это спам, а не принимать решения по типу «да/нет». Если вероятность того, что письмо содержит спам, равна 99%, то письмо и вправду является таковым.

Со временем фильтр тренируется на все большей выборке и обновляет вероятности. Так, продвинутые фильтры, созданные на основе теоремы Байеса, проверяют множество слов подряд и используют их в качестве данных.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *