Собесов

Сценарий: условная вероятность — типичная задача про false positive

Статистика и теорверProbability theoryСредняяMiddle

Условие

Тест на редкую болезнь: чувствительность 99%, специфичность 95%. Распространённость болезни 1 на 10 000. Юзер получил положительный тест. Какова вероятность, что он действительно болен?

Решение

Формула Байеса

P(D | +) = P(+ | D) × P(D) / P(+)

Где:

  • P(+ | D) = sensitivity = 0.99
  • P(D) = prior = 1/10000 = 0.0001
  • P(+ | not D) = 1 - specificity = 0.05
  • P(+) = P(+|D)·P(D) + P(+|notD)·P(notD) = 0.99×0.0001 + 0.05×0.9999 = 0.000099 + 0.04999 = 0.05009
P(D | +) = 0.000099 / 0.05009 ≈ 0.00198 ≈ 0.2%

Интуитивно

В выборке 1 000 000 человек:

  • 100 больных (prior 0.0001), из них 99 тестов положительных.
  • 999 900 здоровых, из них 5% = 49 995 ложно-положительных.
  • Всего «+»: 99 + 49 995 = 50 094.
  • Из них реально больны: 99.
99 / 50094 ≈ 0.2%

Урок: low prior + high false positive rate = ловушка

Даже при «99% sensitive», для редкого события positive predictive value (PPV) низкая. Это не баг теста — это математика.

Как улучшить

  1. Тест на pre-screened группе (высокий prior). Скрининг здоровых — низкий PPV.
  2. Confirmatory test: повторный/другой тест — если оба «+», PPV резко выше.
  3. Calibrated thresholds: повысить порог теста, упасть в sensitivity, но поднять specificity.

Аналогия в продуктовых задачах

  • Anti-fraud: 99% accuracy при 0.1% fraud → большинство «flagged» — false positive.
  • Bot detection.
  • Spam filter.
  • Churn predictor.

Подводные камни

  1. Путают P(+ | D) (sensitivity) и P(D | +) (PPV). Это разные величины.
  2. Sensitivity и specificity — характеристики теста, не зависят от prior. PPV/NPV — зависят.
  3. На рекламируемой «99% accuracy» (например, у COVID-теста) люди путают: точность ≠ PPV для редких событий.
  4. На сбалансированной выборке (50/50) PPV ≈ sensitivity. На несбалансированной всё другое.
  5. Sequential testing (2 теста подряд) умножает «+ | not D» если тесты независимы — что часто не так.

Эталонный ответ

P(D|+) = P(+|D)·P(D) / P(+). При prior 1/10000, sens 99%, spec 95% → PPV ≈ 0.2%. Главный урок: высокая accuracy ≠ хорошая PPV для редких событий — base rate fallacy.

Хочешь увидеть разбор?

Зарегистрируйся бесплатно — откроется развёрнутое решение этой задачи и ещё 4 на выбор.

Зарегистрироваться и увидеть разбор
Уже есть аккаунт? Войти