bgmt: (печать)
[personal profile] bgmt
Я, так случилось, преподавал статистику. И относительно элементарную, и multivariate. Это случилось не только со мной, я знаю по меньшей мере двух университетских профессоров математики, с которыми случилось то же (а ещё не университетских, а ещё не профессоров), которые все, кто потупив глаза, а кто прямо глядя, признаются, что у них всё время было чувство участия в шаманских плясках. Что что-то там скрывается за гранью непонимания. (Я написал неясную фразу, потому что чувство неясности тут неясно, что бы это ни значило). Особенно когда идёт речь о тестировании гипотез, но не только. Этого чувства нет, когда преподаёшь просто теорию вероятности. А вот статистику... Как я рад, что я больше этого не делаю!

Но вот крайне интересная статья, совершенно элементарная, где все примеры ясны, которая показывает, что мы абсолютно ни черта не чувствуем в статистике. Нет у нас интуиции. Ни на грош. Граждане, требуйте сырых данных вместо отстоя средних!

Очень советую.

Date: 2017-07-12 03:06 pm (UTC)
From: [identity profile] katyat.livejournal.com
Интуиции нет и в вероятностях. "Мы летаем на самолетах и покупаем лотерейные билеты"

Со статистикой есть, на мой взгляд, философская проблема - предположение об изначальном распределении параметров, которые мы ищем. При том, что в реальной жизни эти параметры равны чему-то и не флуктуируют и это "что-то" мы ищем. Например, гравитационную постоянную:-)

Другая проблема - манипуляции с данными.
Сырые данные не всегда помогут, так как их подтасовка тоже нередка (например, если тесты показали неэффективность лекарства - они не публикуются, если эффективмность - публикуются).

Date: 2017-07-12 03:21 pm (UTC)
From: [identity profile] nameless--one.livejournal.com
А что не так с полётами на самолётах? :)

Date: 2017-07-12 03:24 pm (UTC)
From: [identity profile] katyat.livejournal.com
Известная шутка: вероятность выигрыша меньше вероятности авиакатастрофы.

Date: 2017-07-12 03:10 pm (UTC)
From: [identity profile] chaource.livejournal.com
Я сейчасъ началъ изучать machine learning / data science, которая есть ни что иное, какъ прикладная статистика. У меня ощущенiе, что статистика "непонятна" изъ-за того, что она имѣетъ дѣло съ двумя принципiально разными видами вѣроятности. Первая вѣроятность - обычная (мѣра на пространствѣ событiй), и про нее все ясно. А вторая вѣроятность описываетъ выборъ гипотезъ или моделей, необходимый передъ тѣмъ, какъ мы вообще сможемъ написать мѣру на какомъ-либо пространствѣ событiй. Этотъ выборъ дѣлается непонятно какъ. Нѣтъ четко опредѣленнаго "пространства всѣхъ гипотезъ" или "пространства всѣхъ возможныхъ будущихъ ситуацiй", и поэтому нѣтъ строгихъ средствъ описанiя послѣдствiй того или иного выбора гипотезъ.

Date: 2017-07-12 03:41 pm (UTC)
From: [identity profile] bgmt.livejournal.com
Вово. Именно. Получается что-то вроде вероятности вероятности. Это очень неприятно. Одновременнно есть ощущение (у меня), что в этом "пространстве гипотез" смысл есть, что такая мера возможна, но мы как-то до неё не доросли умом. Небось, Фейнман чувствовал что-то похожее, когда придумывал интеграл по траекториям, который ровно никакого математического смысла не имел, а однако работал.

Date: 2017-07-13 03:14 am (UTC)
From: [identity profile] chaource.livejournal.com
"Вѣроятность вѣроятности" для гипотезъ надо какъ-то научиться описывать. Она нетривiальна только, если существуютъ два разныхъ вида вѣроятности, иначе мы сможемъ просто пересчитать все въ одну вѣроятность. Должна быть обычная вѣроятность и необычная "квази-вѣроятность".

Въ квантовой механикѣ, кстати, тоже есть два вида вѣроятности - классическая и квантовая, и ихъ можно нетривiально смѣшивать другъ съ другомъ. Но обѣ эти вѣроятности строго опредѣлены, чего нельзя сказать о квази-вѣроятности выбора гипотезъ.

Вотъ примѣръ извѣстной задачи, которая ставитъ меня въ тупикъ: продавецъ хочетъ продать товаръ, къ нему стоитъ очередь изъ 100 покупателей. Каждый покупатель называетъ свою цѣну, которую онъ выбираетъ неизвѣстно какъ. (Т.е. у насъ заранѣе нѣтъ никакой информацiи о томъ, какiя будутъ предложены цѣны.) Если продавецъ соглашается - товаръ проданъ, игра окончена. Если продавецъ не соглашается, покупатель уходитъ и къ продавцу подходитъ слѣдующiй. Возвратиться къ предыдущему покупателю нельзя. Въ какой моментъ продавцу слѣдуетъ соглашаться продать товаръ, чтобы сдѣлка была выгоднѣе?

Мнѣ кажется, что рѣшить эту задачу невозможно, потому что вѣроятностное распредѣленiе цѣнъ неизвѣстно, и тѣмъ болѣе мы не можемъ ввести никакой разумной вѣроятностной мѣры на пространствѣ всѣхъ возможныхъ распредѣленiй.

Однако считается, что у этой задачи есть рѣшенiе. Оно заключается въ томъ, чтобы сперва какое-то количество покупателей (кажется, 100 / exp(1) или что-то въ этомъ родѣ) пропустить, всѣмъ имъ отказавъ въ продажѣ. Потомъ надо вычислить максимумъ изъ предложенныхъ ими цѣнъ. Дальше, какъ только встрѣтится покупатель, предлагающiй цѣну выше этого максимума, соглашаться.

Вотъ это какъ разъ примѣръ того, какъ статистика что-то такое дѣлаетъ непонятно какъ, манипулируя выборомъ гипотезъ.
Edited Date: 2017-07-13 03:14 am (UTC)

Date: 2017-07-13 04:31 pm (UTC)
From: [identity profile] a-konst.livejournal.com
А это решение в предположении, что у всех покупателей одинаковое распределение?

Date: 2017-07-12 05:31 pm (UTC)
From: [identity profile] katyat.livejournal.com
выборъ гипотезъ или моделей, необходимый передъ тѣмъ, какъ мы вообще сможемъ написать мѣру на какомъ-либо пространствѣ событiй
Да, именно этпo я это назвала философской проблемой. В молодости я просто считала метод максимального правдоподобия надувательством.

Каково же было мое возмущение, когда я узнала, что статистике учат наших детей, причем лет так в 15, причем неправильно (не философски, а фактически)!

Date: 2017-07-12 05:58 pm (UTC)
From: [identity profile] p-k.livejournal.com
Вторая вероятность - это то, что называется Bayesian prior, и ее действительно часто не замечают. Обычно это сходит с рук, если распределение первой вероятности узкое, а априорной байесовской вероятности - широкое; тогда ответ слоабо зависит от гипотезы о конкретном виде широкого распределения. Но иногда бывает, что не сходит; я с таким столкнулся, когда изучал применение прямых методов рентгеновской кристаллографии к сложным кристаллам.

Date: 2017-07-12 06:23 pm (UTC)
From: [identity profile] bgmt.livejournal.com
А можно подробнее (или читабельную ссылку)?

Date: 2017-07-12 08:21 pm (UTC)
From: [identity profile] p-k.livejournal.com
Про что ссылку? Если про Bayesian prior, то это просто название безусловной вероятности для параметров (ну если формула Байеса выражает P(A|B) через P(B|A), то прайор - это P(A), входящий в знаменатель формулы). Если P(B|A) представляет собой узкий пик, как функция A, а P(A) - широкий, то ответ для P(A|B) мало зависит от формы P(A). А если про прямые методы, то это история про попытки приложить подход к решению фазовой проблемы, придуманный Hauptmann и Carle, к квазикристаллам. Я пытался это делать 30 лет назад, пока не понял, что абсурдные результаты получается из-за совершенно неадекватного prior; ссылок тут не будет, потому что не опубликовано, наука пошла другим путем.

Date: 2017-07-14 06:15 am (UTC)
From: [identity profile] rostyslav maiboroda (from livejournal.com)
Статистика это не machine learning. Собственно, это и вредит пониманию статистики - что ее воспринимают то ли как теорию вероятностей, то ли как machine learning.

Теория вероятностей - наука доказательная.
Почему дисперсия не может быть отрицательной? Потому, что это интеграл от положительной функции.

Machine learning - наука инженерная.
- Почему вы не слушаете? Вот я доказал...
- Работает?
- Ну, в-общем...
- Когда заработает - приходи.

Статистика - наука нормативная. Вроде филологии.
Почему нельзя "корова" писать через ять? Потому, что иначе в журнале не напечатают.
Почему нужно, чтобы p-level был меньше 0.05? Потому, что иначе в журнале не напечатают.

Date: 2017-07-14 09:18 am (UTC)
From: [identity profile] bgmt.livejournal.com
Это хорошо сказано, но не проясняет, почему (слово "почему" следует понимать в терминах доказательных наук) статистика "работает", Чтобы это прояснить, нужна мера, относящаяся к реальному миру. На пространстве событий или вроде того. Поскольку тут вопрос становится не математическим, а физическим, допустимы гипотезы, при условии, что они falsifiables. Но вместо того туман. Даже в парадоксе Гиббса, считающемся давно разрешённым, туман. Статфизика стоит на полутумане, и однако работает.

Date: 2017-07-14 02:43 pm (UTC)
From: [identity profile] rostyslav maiboroda (from livejournal.com)
Это уже другой вопрос: почему теорию вероятностей можно применять к описанию реального мира. Теория вероятностей – раздел математики, так что имеем частный случай вопроса о «непостижимой эффективности математики».
По этому общему вопросу мой ответ таков: математику три тысячи лет подвинчивали, подкручивали, дорабатывали наждаком, чтобы она работала. Было бы удивительно, если бы от нее в результате не вышло никакого толку.
Применительно к теории вероятностей. Ключевая концепция в ней – независимость (величин и событий). Две величины независимы, если знание об одной из них ничего не дает для предсказания другой. Такое бывает довольно часто. До XVIII века математики считали, что их дело – предсказывать одни величины на основании других, стало быть, независимые величины не по их части. Но вот обнаружили, что независимость разрешает делать далеко идущие и весьма полезные выводы. Хорошо бы и к ней приладить настоящую математику. Ну а самой удобной на сегодня математической моделью независимых величин оказалась теория меры. Не важно какой меры и где – важно, что на ее основе можно получать выводы привлекая логику независимости.
Если обнаружится более удачная модель – будем пользоваться ею.
Пока не обнаружилась.

Date: 2017-07-14 03:46 pm (UTC)
From: [identity profile] bgmt.livejournal.com
Вы говорите про применимость теории вероятностей. Это загадкой вроде никогда и не было, если не считать "непостижимую эффективность математики". Независимость, о которой вы говорите, это фактически утверждение о сепарабельности: существует метрика (обычно просто метрика пространства), в которой далёкие в смысле этой метрики события "не влияют" друг на друга (т.е. влияние - малая величина по сравнению с существенными параметрами взаимодействия близких событий). Это гипотеза, но она пока очень хорошо держится. Вне её мы, собственно, ничего считать не умеем.
А я говорил о применимости статистики. Статистика, как вы сами указали, это не теория вероятностей. Это, кроме того, набор правил выбора ну скажем, нулевой гипотезы, потому что от него зависит результат и соответствующее решение. Теория вероятностей нуждается в определении ансамбля или, если чуть расширить, меры. Статистика создаёт вероятности на несуществующем и неопределимом ансамбле.
И однако работает.

Date: 2017-07-14 04:35 pm (UTC)
From: [identity profile] rostyslav maiboroda (from livejournal.com)
Правило выбора нулевой гипотезы, которое я рассказываю студентам:
"В качестве нулевой выбирайте гипотезу, которую вы хотите опровергнуть данными эксперимента".

Например, если вы пишете статью о новообнаруженном эффекте и хотите подтвердить ее статистическими данными, то нулевая гипотеза должна быть об отсутствии эффекта. Тогда если тест примет альтернативу - это будет действительно экспериментальным подтверждением, а не априорным суждением.
Если вы проверяете новое лекарство на отсутствие побочного эффекта, то основной должна быть гипотеза о наличии эффекта.
И т.п.

С вероятностями это правило не связано никак.

Date: 2017-07-12 03:24 pm (UTC)
From: [identity profile] vernova.livejournal.com
нам в начале первого урока статистики в университете преподаватель так и сказал, что есть ложь, есть грязная ложь, и есть статистика.

Date: 2017-07-12 05:41 pm (UTC)
From: [identity profile] bgmt.livejournal.com
Ну это не то чтобы он сам придумал. Приписывается - кому только не приписывается.

Date: 2017-07-13 05:20 am (UTC)
From: [identity profile] vernova.livejournal.com
он не претендовал на авторство

Date: 2017-07-12 03:26 pm (UTC)
From: [identity profile] ymi-an-island.livejournal.com
be Bayesian и все сразу станет ну не хорошо, но все же гораздо лучше.

Date: 2017-07-12 05:43 pm (UTC)
From: [identity profile] bgmt.livejournal.com
Неа. Тсзть философские вопросы (см. коммент chaource) всё равно остаются. Выбор нулевой гипотезы хотя бы. Не только.

Date: 2017-07-12 07:15 pm (UTC)
From: [identity profile] bakhtin.livejournal.com
Статистику действительно очень сложно преподавать, она требует другого образа мыслей по сравнению с теорией вероятностей. Разумеется, в хорошем курсе статистики должны обсуждаться сложности её применения. Должны обсуждаться базовые парадоксы вроде тех, что по ссылке. Преподавать статистику без этого - действительно, плодить взгляды на неё как на шаманство. Известное высказывание, которое и в этом треде привели, что нет хуже обмана, чем статистика, относится к "плохим" её примененениям - неграмотным, недобросовестным, злонамеренным. Ситуация, как в анекдоте, про то как о Шаляпине судят по чьему-то свисту.

Литература о сложности применений статистики существует. Такие две книги приходят в голову:

1. Есть важная книга Daniel Kahneman "Thinking, Fast and Slow" по психологии. Одна из главных тем в ней - именно о том, что мы не очень-то приспособлены работать со статистической информацией, что интуиция, к которой мы норовим обратиться, нас постоянно подводит, и что даже профессионалы, которые должны бы всё уметь, регулярно совершают ошибки такого рода. В своих вероятностных курсах любого уровня всем своим студентам-аспирантам рекомендую читать эту книгу (К сожалению, требовать не могу - это отдельный курс был бы).

2. На русском языке вторая часть учебника Тутубалина по теории вероятностей целиком посвящена сложностям её применения. Очень рекомендую.

Вообще-то философско-методические сложности с применениями теории вероятностей (в частности, со статистикой) - известный больной вопрос.

Date: 2017-07-12 08:26 pm (UTC)
From: [identity profile] p-k.livejournal.com
Есть важная книга Daniel Kahneman "Thinking, Fast and Slow" по психологии.

Плюс много. Но это непростое чтение, я многим эту книгу рекомендовал, но далеко не все смогли ее оценить - уж больно сильно внутреннее сопротивление, когда тебе аргументированно объясняют, что твое собственное мышление не просто нерационально, а предсказуемо нерационально...

Date: 2017-07-12 09:29 pm (UTC)
From: [identity profile] bgmt.livejournal.com
Канеман у меня уже два года лежит в киндле, ждёт, надеется. Я тоже надеюсь. Вот перестану бумкать и сосредоточусь...

Date: 2017-07-14 04:26 pm (UTC)
From: [identity profile] bakhtin.livejournal.com
Откладывать такое удовольствие совершенно незачем.

(извините, что не отвечал - просто коммент не пришёл на мыло.)

Date: 2017-07-13 01:02 am (UTC)
From: [identity profile] egovoru.livejournal.com
"я многим эту книгу рекомендовал, но далеко не все смогли ее оценить"

Мне эта книжка тоже понравилась. Но есть и критики канемановской методики, из которых самый известный - Герд Гигеренцер. Вот здесь мы обсуждали (http://egovoru.livejournal.com/87806.html?thread=2968062#t2968062) его возражения - может быть, Вы захотите поучаствовать?

Date: 2017-07-13 03:01 am (UTC)
From: [identity profile] ymi-an-island.livejournal.com
также порекомендую Jordan Ellenberg, How Not to Be Wrong
недавно вышел русский перевод, под ред. [livejournal.com profile] prahvessor

Date: 2017-08-01 07:26 pm (UTC)
From: [identity profile] bakhtin.livejournal.com
спасибо за рекомендацию. Следуя ей, купил эту книгу, многое в ней прочёл, и думаю, что многим полезно почитать будет.

Date: 2017-08-02 03:32 am (UTC)
From: [identity profile] ymi-an-island.livejournal.com
пожалуйста

Date: 2017-07-12 08:50 pm (UTC)
From: [identity profile] cross-join.livejournal.com
Процитирую себя
в научной сфере развернулись дискуссии, потому что при широком доступе к результатам экспериментов найденные в данных закономерности выдаются за подтвержденные гипотезы без объяснений природы связи. Самая настоящая астрология въехала в науку на колесах телеги "больших данных";

Date: 2017-07-21 07:24 pm (UTC)
From: [identity profile] petrark.livejournal.com
Спасибо, интересно.

Profile

bgmt: (Default)
bgmt

March 2022

S M T W T F S
  1 2345
6789 101112
131415161718 19
20 212223242526
2728293031  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated May. 25th, 2025 03:27 pm
Powered by Dreamwidth Studios