прастатистику
Jul. 12th, 2017 03:51 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Я, так случилось, преподавал статистику. И относительно элементарную, и multivariate. Это случилось не только со мной, я знаю по меньшей мере двух университетских профессоров математики, с которыми случилось то же (а ещё не университетских, а ещё не профессоров), которые все, кто потупив глаза, а кто прямо глядя, признаются, что у них всё время было чувство участия в шаманских плясках. Что что-то там скрывается за гранью непонимания. (Я написал неясную фразу, потому что чувство неясности тут неясно, что бы это ни значило). Особенно когда идёт речь о тестировании гипотез, но не только. Этого чувства нет, когда преподаёшь просто теорию вероятности. А вот статистику... Как я рад, что я больше этого не делаю!
Но вот крайне интересная статья, совершенно элементарная, где все примеры ясны, которая показывает, что мы абсолютно ни черта не чувствуем в статистике. Нет у нас интуиции. Ни на грош. Граждане, требуйте сырых данных вместо отстоя средних!
Очень советую.
Но вот крайне интересная статья, совершенно элементарная, где все примеры ясны, которая показывает, что мы абсолютно ни черта не чувствуем в статистике. Нет у нас интуиции. Ни на грош. Граждане, требуйте сырых данных вместо отстоя средних!
Очень советую.
no subject
Date: 2017-07-12 03:06 pm (UTC)Со статистикой есть, на мой взгляд, философская проблема - предположение об изначальном распределении параметров, которые мы ищем. При том, что в реальной жизни эти параметры равны чему-то и не флуктуируют и это "что-то" мы ищем. Например, гравитационную постоянную:-)
Другая проблема - манипуляции с данными.
Сырые данные не всегда помогут, так как их подтасовка тоже нередка (например, если тесты показали неэффективность лекарства - они не публикуются, если эффективмность - публикуются).
no subject
Date: 2017-07-12 03:21 pm (UTC)no subject
Date: 2017-07-12 03:24 pm (UTC)no subject
Date: 2017-07-12 03:10 pm (UTC)no subject
Date: 2017-07-12 03:41 pm (UTC)no subject
Date: 2017-07-13 03:14 am (UTC)Въ квантовой механикѣ, кстати, тоже есть два вида вѣроятности - классическая и квантовая, и ихъ можно нетривiально смѣшивать другъ съ другомъ. Но обѣ эти вѣроятности строго опредѣлены, чего нельзя сказать о квази-вѣроятности выбора гипотезъ.
Вотъ примѣръ извѣстной задачи, которая ставитъ меня въ тупикъ: продавецъ хочетъ продать товаръ, къ нему стоитъ очередь изъ 100 покупателей. Каждый покупатель называетъ свою цѣну, которую онъ выбираетъ неизвѣстно какъ. (Т.е. у насъ заранѣе нѣтъ никакой информацiи о томъ, какiя будутъ предложены цѣны.) Если продавецъ соглашается - товаръ проданъ, игра окончена. Если продавецъ не соглашается, покупатель уходитъ и къ продавцу подходитъ слѣдующiй. Возвратиться къ предыдущему покупателю нельзя. Въ какой моментъ продавцу слѣдуетъ соглашаться продать товаръ, чтобы сдѣлка была выгоднѣе?
Мнѣ кажется, что рѣшить эту задачу невозможно, потому что вѣроятностное распредѣленiе цѣнъ неизвѣстно, и тѣмъ болѣе мы не можемъ ввести никакой разумной вѣроятностной мѣры на пространствѣ всѣхъ возможныхъ распредѣленiй.
Однако считается, что у этой задачи есть рѣшенiе. Оно заключается въ томъ, чтобы сперва какое-то количество покупателей (кажется, 100 / exp(1) или что-то въ этомъ родѣ) пропустить, всѣмъ имъ отказавъ въ продажѣ. Потомъ надо вычислить максимумъ изъ предложенныхъ ими цѣнъ. Дальше, какъ только встрѣтится покупатель, предлагающiй цѣну выше этого максимума, соглашаться.
Вотъ это какъ разъ примѣръ того, какъ статистика что-то такое дѣлаетъ непонятно какъ, манипулируя выборомъ гипотезъ.
no subject
Date: 2017-07-13 04:31 pm (UTC)no subject
Date: 2017-07-12 05:31 pm (UTC)Да, именно этпo я это назвала философской проблемой. В молодости я просто считала метод максимального правдоподобия надувательством.
Каково же было мое возмущение, когда я узнала, что статистике учат наших детей, причем лет так в 15, причем неправильно (не философски, а фактически)!
no subject
Date: 2017-07-12 05:58 pm (UTC)no subject
Date: 2017-07-12 06:23 pm (UTC)no subject
Date: 2017-07-12 08:21 pm (UTC)no subject
Date: 2017-07-14 06:15 am (UTC)Теория вероятностей - наука доказательная.
Почему дисперсия не может быть отрицательной? Потому, что это интеграл от положительной функции.
Machine learning - наука инженерная.
- Почему вы не слушаете? Вот я доказал...
- Работает?
- Ну, в-общем...
- Когда заработает - приходи.
Статистика - наука нормативная. Вроде филологии.
Почему нельзя "корова" писать через ять? Потому, что иначе в журнале не напечатают.
Почему нужно, чтобы p-level был меньше 0.05? Потому, что иначе в журнале не напечатают.
no subject
Date: 2017-07-14 09:18 am (UTC)no subject
Date: 2017-07-14 02:43 pm (UTC)По этому общему вопросу мой ответ таков: математику три тысячи лет подвинчивали, подкручивали, дорабатывали наждаком, чтобы она работала. Было бы удивительно, если бы от нее в результате не вышло никакого толку.
Применительно к теории вероятностей. Ключевая концепция в ней – независимость (величин и событий). Две величины независимы, если знание об одной из них ничего не дает для предсказания другой. Такое бывает довольно часто. До XVIII века математики считали, что их дело – предсказывать одни величины на основании других, стало быть, независимые величины не по их части. Но вот обнаружили, что независимость разрешает делать далеко идущие и весьма полезные выводы. Хорошо бы и к ней приладить настоящую математику. Ну а самой удобной на сегодня математической моделью независимых величин оказалась теория меры. Не важно какой меры и где – важно, что на ее основе можно получать выводы привлекая логику независимости.
Если обнаружится более удачная модель – будем пользоваться ею.
Пока не обнаружилась.
no subject
Date: 2017-07-14 03:46 pm (UTC)А я говорил о применимости статистики. Статистика, как вы сами указали, это не теория вероятностей. Это, кроме того, набор правил выбора ну скажем, нулевой гипотезы, потому что от него зависит результат и соответствующее решение. Теория вероятностей нуждается в определении ансамбля или, если чуть расширить, меры. Статистика создаёт вероятности на несуществующем и неопределимом ансамбле.
И однако работает.
no subject
Date: 2017-07-14 04:35 pm (UTC)"В качестве нулевой выбирайте гипотезу, которую вы хотите опровергнуть данными эксперимента".
Например, если вы пишете статью о новообнаруженном эффекте и хотите подтвердить ее статистическими данными, то нулевая гипотеза должна быть об отсутствии эффекта. Тогда если тест примет альтернативу - это будет действительно экспериментальным подтверждением, а не априорным суждением.
Если вы проверяете новое лекарство на отсутствие побочного эффекта, то основной должна быть гипотеза о наличии эффекта.
И т.п.
С вероятностями это правило не связано никак.
no subject
Date: 2017-07-12 03:24 pm (UTC)no subject
Date: 2017-07-12 05:41 pm (UTC)no subject
Date: 2017-07-13 05:20 am (UTC)no subject
Date: 2017-07-12 03:26 pm (UTC)no subject
Date: 2017-07-12 05:43 pm (UTC)no subject
Date: 2017-07-12 07:15 pm (UTC)Литература о сложности применений статистики существует. Такие две книги приходят в голову:
1. Есть важная книга Daniel Kahneman "Thinking, Fast and Slow" по психологии. Одна из главных тем в ней - именно о том, что мы не очень-то приспособлены работать со статистической информацией, что интуиция, к которой мы норовим обратиться, нас постоянно подводит, и что даже профессионалы, которые должны бы всё уметь, регулярно совершают ошибки такого рода. В своих вероятностных курсах любого уровня всем своим студентам-аспирантам рекомендую читать эту книгу (К сожалению, требовать не могу - это отдельный курс был бы).
2. На русском языке вторая часть учебника Тутубалина по теории вероятностей целиком посвящена сложностям её применения. Очень рекомендую.
Вообще-то философско-методические сложности с применениями теории вероятностей (в частности, со статистикой) - известный больной вопрос.
no subject
Date: 2017-07-12 08:26 pm (UTC)Плюс много. Но это непростое чтение, я многим эту книгу рекомендовал, но далеко не все смогли ее оценить - уж больно сильно внутреннее сопротивление, когда тебе аргументированно объясняют, что твое собственное мышление не просто нерационально, а предсказуемо нерационально...
no subject
Date: 2017-07-12 09:29 pm (UTC)no subject
Date: 2017-07-14 04:26 pm (UTC)(извините, что не отвечал - просто коммент не пришёл на мыло.)
no subject
Date: 2017-07-13 01:02 am (UTC)Мне эта книжка тоже понравилась. Но есть и критики канемановской методики, из которых самый известный - Герд Гигеренцер. Вот здесь мы обсуждали (http://egovoru.livejournal.com/87806.html?thread=2968062#t2968062) его возражения - может быть, Вы захотите поучаствовать?
no subject
Date: 2017-07-13 03:01 am (UTC)недавно вышел русский перевод, под ред.
no subject
Date: 2017-08-01 07:26 pm (UTC)no subject
Date: 2017-08-02 03:32 am (UTC)no subject
Date: 2017-07-12 08:50 pm (UTC)в научной сфере развернулись дискуссии, потому что при широком доступе к результатам экспериментов найденные в данных закономерности выдаются за подтвержденные гипотезы без объяснений природы связи. Самая настоящая астрология въехала в науку на колесах телеги "больших данных";
no subject
Date: 2017-07-21 07:24 pm (UTC)