bgmt: (печать)
bgmt ([personal profile] bgmt) wrote2017-07-12 03:51 pm

прастатистику

Я, так случилось, преподавал статистику. И относительно элементарную, и multivariate. Это случилось не только со мной, я знаю по меньшей мере двух университетских профессоров математики, с которыми случилось то же (а ещё не университетских, а ещё не профессоров), которые все, кто потупив глаза, а кто прямо глядя, признаются, что у них всё время было чувство участия в шаманских плясках. Что что-то там скрывается за гранью непонимания. (Я написал неясную фразу, потому что чувство неясности тут неясно, что бы это ни значило). Особенно когда идёт речь о тестировании гипотез, но не только. Этого чувства нет, когда преподаёшь просто теорию вероятности. А вот статистику... Как я рад, что я больше этого не делаю!

Но вот крайне интересная статья, совершенно элементарная, где все примеры ясны, которая показывает, что мы абсолютно ни черта не чувствуем в статистике. Нет у нас интуиции. Ни на грош. Граждане, требуйте сырых данных вместо отстоя средних!

Очень советую.

[identity profile] katyat.livejournal.com 2017-07-12 03:06 pm (UTC)(link)
Интуиции нет и в вероятностях. "Мы летаем на самолетах и покупаем лотерейные билеты"

Со статистикой есть, на мой взгляд, философская проблема - предположение об изначальном распределении параметров, которые мы ищем. При том, что в реальной жизни эти параметры равны чему-то и не флуктуируют и это "что-то" мы ищем. Например, гравитационную постоянную:-)

Другая проблема - манипуляции с данными.
Сырые данные не всегда помогут, так как их подтасовка тоже нередка (например, если тесты показали неэффективность лекарства - они не публикуются, если эффективмность - публикуются).

[identity profile] chaource.livejournal.com 2017-07-12 03:10 pm (UTC)(link)
Я сейчасъ началъ изучать machine learning / data science, которая есть ни что иное, какъ прикладная статистика. У меня ощущенiе, что статистика "непонятна" изъ-за того, что она имѣетъ дѣло съ двумя принципiально разными видами вѣроятности. Первая вѣроятность - обычная (мѣра на пространствѣ событiй), и про нее все ясно. А вторая вѣроятность описываетъ выборъ гипотезъ или моделей, необходимый передъ тѣмъ, какъ мы вообще сможемъ написать мѣру на какомъ-либо пространствѣ событiй. Этотъ выборъ дѣлается непонятно какъ. Нѣтъ четко опредѣленнаго "пространства всѣхъ гипотезъ" или "пространства всѣхъ возможныхъ будущихъ ситуацiй", и поэтому нѣтъ строгихъ средствъ описанiя послѣдствiй того или иного выбора гипотезъ.

[identity profile] nameless--one.livejournal.com 2017-07-12 03:21 pm (UTC)(link)
А что не так с полётами на самолётах? :)

[identity profile] katyat.livejournal.com 2017-07-12 03:24 pm (UTC)(link)
Известная шутка: вероятность выигрыша меньше вероятности авиакатастрофы.

[identity profile] vernova.livejournal.com 2017-07-12 03:24 pm (UTC)(link)
нам в начале первого урока статистики в университете преподаватель так и сказал, что есть ложь, есть грязная ложь, и есть статистика.

[identity profile] ymi-an-island.livejournal.com 2017-07-12 03:26 pm (UTC)(link)
be Bayesian и все сразу станет ну не хорошо, но все же гораздо лучше.

[identity profile] bgmt.livejournal.com 2017-07-12 03:41 pm (UTC)(link)
Вово. Именно. Получается что-то вроде вероятности вероятности. Это очень неприятно. Одновременнно есть ощущение (у меня), что в этом "пространстве гипотез" смысл есть, что такая мера возможна, но мы как-то до неё не доросли умом. Небось, Фейнман чувствовал что-то похожее, когда придумывал интеграл по траекториям, который ровно никакого математического смысла не имел, а однако работал.

[identity profile] katyat.livejournal.com 2017-07-12 05:31 pm (UTC)(link)
выборъ гипотезъ или моделей, необходимый передъ тѣмъ, какъ мы вообще сможемъ написать мѣру на какомъ-либо пространствѣ событiй
Да, именно этпo я это назвала философской проблемой. В молодости я просто считала метод максимального правдоподобия надувательством.

Каково же было мое возмущение, когда я узнала, что статистике учат наших детей, причем лет так в 15, причем неправильно (не философски, а фактически)!

[identity profile] bgmt.livejournal.com 2017-07-12 05:41 pm (UTC)(link)
Ну это не то чтобы он сам придумал. Приписывается - кому только не приписывается.

[identity profile] bgmt.livejournal.com 2017-07-12 05:43 pm (UTC)(link)
Неа. Тсзть философские вопросы (см. коммент chaource) всё равно остаются. Выбор нулевой гипотезы хотя бы. Не только.

[identity profile] p-k.livejournal.com 2017-07-12 05:58 pm (UTC)(link)
Вторая вероятность - это то, что называется Bayesian prior, и ее действительно часто не замечают. Обычно это сходит с рук, если распределение первой вероятности узкое, а априорной байесовской вероятности - широкое; тогда ответ слоабо зависит от гипотезы о конкретном виде широкого распределения. Но иногда бывает, что не сходит; я с таким столкнулся, когда изучал применение прямых методов рентгеновской кристаллографии к сложным кристаллам.

[identity profile] bgmt.livejournal.com 2017-07-12 06:23 pm (UTC)(link)
А можно подробнее (или читабельную ссылку)?

[identity profile] bakhtin.livejournal.com 2017-07-12 07:15 pm (UTC)(link)
Статистику действительно очень сложно преподавать, она требует другого образа мыслей по сравнению с теорией вероятностей. Разумеется, в хорошем курсе статистики должны обсуждаться сложности её применения. Должны обсуждаться базовые парадоксы вроде тех, что по ссылке. Преподавать статистику без этого - действительно, плодить взгляды на неё как на шаманство. Известное высказывание, которое и в этом треде привели, что нет хуже обмана, чем статистика, относится к "плохим" её примененениям - неграмотным, недобросовестным, злонамеренным. Ситуация, как в анекдоте, про то как о Шаляпине судят по чьему-то свисту.

Литература о сложности применений статистики существует. Такие две книги приходят в голову:

1. Есть важная книга Daniel Kahneman "Thinking, Fast and Slow" по психологии. Одна из главных тем в ней - именно о том, что мы не очень-то приспособлены работать со статистической информацией, что интуиция, к которой мы норовим обратиться, нас постоянно подводит, и что даже профессионалы, которые должны бы всё уметь, регулярно совершают ошибки такого рода. В своих вероятностных курсах любого уровня всем своим студентам-аспирантам рекомендую читать эту книгу (К сожалению, требовать не могу - это отдельный курс был бы).

2. На русском языке вторая часть учебника Тутубалина по теории вероятностей целиком посвящена сложностям её применения. Очень рекомендую.

Вообще-то философско-методические сложности с применениями теории вероятностей (в частности, со статистикой) - известный больной вопрос.

[identity profile] p-k.livejournal.com 2017-07-12 08:21 pm (UTC)(link)
Про что ссылку? Если про Bayesian prior, то это просто название безусловной вероятности для параметров (ну если формула Байеса выражает P(A|B) через P(B|A), то прайор - это P(A), входящий в знаменатель формулы). Если P(B|A) представляет собой узкий пик, как функция A, а P(A) - широкий, то ответ для P(A|B) мало зависит от формы P(A). А если про прямые методы, то это история про попытки приложить подход к решению фазовой проблемы, придуманный Hauptmann и Carle, к квазикристаллам. Я пытался это делать 30 лет назад, пока не понял, что абсурдные результаты получается из-за совершенно неадекватного prior; ссылок тут не будет, потому что не опубликовано, наука пошла другим путем.

[identity profile] p-k.livejournal.com 2017-07-12 08:26 pm (UTC)(link)
Есть важная книга Daniel Kahneman "Thinking, Fast and Slow" по психологии.

Плюс много. Но это непростое чтение, я многим эту книгу рекомендовал, но далеко не все смогли ее оценить - уж больно сильно внутреннее сопротивление, когда тебе аргументированно объясняют, что твое собственное мышление не просто нерационально, а предсказуемо нерационально...

[identity profile] cross-join.livejournal.com 2017-07-12 08:50 pm (UTC)(link)
Процитирую себя
в научной сфере развернулись дискуссии, потому что при широком доступе к результатам экспериментов найденные в данных закономерности выдаются за подтвержденные гипотезы без объяснений природы связи. Самая настоящая астрология въехала в науку на колесах телеги "больших данных";

[identity profile] bgmt.livejournal.com 2017-07-12 09:29 pm (UTC)(link)
Канеман у меня уже два года лежит в киндле, ждёт, надеется. Я тоже надеюсь. Вот перестану бумкать и сосредоточусь...

[identity profile] egovoru.livejournal.com 2017-07-13 01:02 am (UTC)(link)
"я многим эту книгу рекомендовал, но далеко не все смогли ее оценить"

Мне эта книжка тоже понравилась. Но есть и критики канемановской методики, из которых самый известный - Герд Гигеренцер. Вот здесь мы обсуждали (http://egovoru.livejournal.com/87806.html?thread=2968062#t2968062) его возражения - может быть, Вы захотите поучаствовать?

[identity profile] ymi-an-island.livejournal.com 2017-07-13 03:01 am (UTC)(link)
также порекомендую Jordan Ellenberg, How Not to Be Wrong
недавно вышел русский перевод, под ред. [livejournal.com profile] prahvessor

[identity profile] chaource.livejournal.com 2017-07-13 03:14 am (UTC)(link)
"Вѣроятность вѣроятности" для гипотезъ надо какъ-то научиться описывать. Она нетривiальна только, если существуютъ два разныхъ вида вѣроятности, иначе мы сможемъ просто пересчитать все въ одну вѣроятность. Должна быть обычная вѣроятность и необычная "квази-вѣроятность".

Въ квантовой механикѣ, кстати, тоже есть два вида вѣроятности - классическая и квантовая, и ихъ можно нетривiально смѣшивать другъ съ другомъ. Но обѣ эти вѣроятности строго опредѣлены, чего нельзя сказать о квази-вѣроятности выбора гипотезъ.

Вотъ примѣръ извѣстной задачи, которая ставитъ меня въ тупикъ: продавецъ хочетъ продать товаръ, къ нему стоитъ очередь изъ 100 покупателей. Каждый покупатель называетъ свою цѣну, которую онъ выбираетъ неизвѣстно какъ. (Т.е. у насъ заранѣе нѣтъ никакой информацiи о томъ, какiя будутъ предложены цѣны.) Если продавецъ соглашается - товаръ проданъ, игра окончена. Если продавецъ не соглашается, покупатель уходитъ и къ продавцу подходитъ слѣдующiй. Возвратиться къ предыдущему покупателю нельзя. Въ какой моментъ продавцу слѣдуетъ соглашаться продать товаръ, чтобы сдѣлка была выгоднѣе?

Мнѣ кажется, что рѣшить эту задачу невозможно, потому что вѣроятностное распредѣленiе цѣнъ неизвѣстно, и тѣмъ болѣе мы не можемъ ввести никакой разумной вѣроятностной мѣры на пространствѣ всѣхъ возможныхъ распредѣленiй.

Однако считается, что у этой задачи есть рѣшенiе. Оно заключается въ томъ, чтобы сперва какое-то количество покупателей (кажется, 100 / exp(1) или что-то въ этомъ родѣ) пропустить, всѣмъ имъ отказавъ въ продажѣ. Потомъ надо вычислить максимумъ изъ предложенныхъ ими цѣнъ. Дальше, какъ только встрѣтится покупатель, предлагающiй цѣну выше этого максимума, соглашаться.

Вотъ это какъ разъ примѣръ того, какъ статистика что-то такое дѣлаетъ непонятно какъ, манипулируя выборомъ гипотезъ.
Edited 2017-07-13 03:14 (UTC)

[identity profile] vernova.livejournal.com 2017-07-13 05:20 am (UTC)(link)
он не претендовал на авторство

[identity profile] a-konst.livejournal.com 2017-07-13 04:31 pm (UTC)(link)
А это решение в предположении, что у всех покупателей одинаковое распределение?

[identity profile] rostyslav maiboroda (from livejournal.com) 2017-07-14 06:15 am (UTC)(link)
Статистика это не machine learning. Собственно, это и вредит пониманию статистики - что ее воспринимают то ли как теорию вероятностей, то ли как machine learning.

Теория вероятностей - наука доказательная.
Почему дисперсия не может быть отрицательной? Потому, что это интеграл от положительной функции.

Machine learning - наука инженерная.
- Почему вы не слушаете? Вот я доказал...
- Работает?
- Ну, в-общем...
- Когда заработает - приходи.

Статистика - наука нормативная. Вроде филологии.
Почему нельзя "корова" писать через ять? Потому, что иначе в журнале не напечатают.
Почему нужно, чтобы p-level был меньше 0.05? Потому, что иначе в журнале не напечатают.

[identity profile] bgmt.livejournal.com 2017-07-14 09:18 am (UTC)(link)
Это хорошо сказано, но не проясняет, почему (слово "почему" следует понимать в терминах доказательных наук) статистика "работает", Чтобы это прояснить, нужна мера, относящаяся к реальному миру. На пространстве событий или вроде того. Поскольку тут вопрос становится не математическим, а физическим, допустимы гипотезы, при условии, что они falsifiables. Но вместо того туман. Даже в парадоксе Гиббса, считающемся давно разрешённым, туман. Статфизика стоит на полутумане, и однако работает.

[identity profile] rostyslav maiboroda (from livejournal.com) 2017-07-14 02:43 pm (UTC)(link)
Это уже другой вопрос: почему теорию вероятностей можно применять к описанию реального мира. Теория вероятностей – раздел математики, так что имеем частный случай вопроса о «непостижимой эффективности математики».
По этому общему вопросу мой ответ таков: математику три тысячи лет подвинчивали, подкручивали, дорабатывали наждаком, чтобы она работала. Было бы удивительно, если бы от нее в результате не вышло никакого толку.
Применительно к теории вероятностей. Ключевая концепция в ней – независимость (величин и событий). Две величины независимы, если знание об одной из них ничего не дает для предсказания другой. Такое бывает довольно часто. До XVIII века математики считали, что их дело – предсказывать одни величины на основании других, стало быть, независимые величины не по их части. Но вот обнаружили, что независимость разрешает делать далеко идущие и весьма полезные выводы. Хорошо бы и к ней приладить настоящую математику. Ну а самой удобной на сегодня математической моделью независимых величин оказалась теория меры. Не важно какой меры и где – важно, что на ее основе можно получать выводы привлекая логику независимости.
Если обнаружится более удачная модель – будем пользоваться ею.
Пока не обнаружилась.

[identity profile] bgmt.livejournal.com 2017-07-14 03:46 pm (UTC)(link)
Вы говорите про применимость теории вероятностей. Это загадкой вроде никогда и не было, если не считать "непостижимую эффективность математики". Независимость, о которой вы говорите, это фактически утверждение о сепарабельности: существует метрика (обычно просто метрика пространства), в которой далёкие в смысле этой метрики события "не влияют" друг на друга (т.е. влияние - малая величина по сравнению с существенными параметрами взаимодействия близких событий). Это гипотеза, но она пока очень хорошо держится. Вне её мы, собственно, ничего считать не умеем.
А я говорил о применимости статистики. Статистика, как вы сами указали, это не теория вероятностей. Это, кроме того, набор правил выбора ну скажем, нулевой гипотезы, потому что от него зависит результат и соответствующее решение. Теория вероятностей нуждается в определении ансамбля или, если чуть расширить, меры. Статистика создаёт вероятности на несуществующем и неопределимом ансамбле.
И однако работает.

[identity profile] bakhtin.livejournal.com 2017-07-14 04:26 pm (UTC)(link)
Откладывать такое удовольствие совершенно незачем.

(извините, что не отвечал - просто коммент не пришёл на мыло.)

[identity profile] rostyslav maiboroda (from livejournal.com) 2017-07-14 04:35 pm (UTC)(link)
Правило выбора нулевой гипотезы, которое я рассказываю студентам:
"В качестве нулевой выбирайте гипотезу, которую вы хотите опровергнуть данными эксперимента".

Например, если вы пишете статью о новообнаруженном эффекте и хотите подтвердить ее статистическими данными, то нулевая гипотеза должна быть об отсутствии эффекта. Тогда если тест примет альтернативу - это будет действительно экспериментальным подтверждением, а не априорным суждением.
Если вы проверяете новое лекарство на отсутствие побочного эффекта, то основной должна быть гипотеза о наличии эффекта.
И т.п.

С вероятностями это правило не связано никак.

[identity profile] petrark.livejournal.com 2017-07-21 07:24 pm (UTC)(link)
Спасибо, интересно.

[identity profile] bakhtin.livejournal.com 2017-08-01 07:26 pm (UTC)(link)
спасибо за рекомендацию. Следуя ей, купил эту книгу, многое в ней прочёл, и думаю, что многим полезно почитать будет.

[identity profile] ymi-an-island.livejournal.com 2017-08-02 03:32 am (UTC)(link)
пожалуйста