bgmt: (Default)
[personal profile] bgmt
У меня, к сожалению, нет времени подробно разобраться во всей статистике результатов выборов. Надо сказать, что советская власть так бы не прокололась, я думаю, у них были специалисты грамотнее. Ну, про больше ста процентов за ЕР все слышали уже, про сто процентов явки в Ингушетии, где уже неделю назад 50 тысяч человек подписали заявление, что не ходили на выборы, тоже все слышали. Некоторое время назад много у кого в ЖЖ был приведён замечательный график - почти абсолютная корреляция процента явки и процента голосовавших за ЕР (для гуманитаров: т.е. если, предположим, явилась половина избирателей, то из неё, предположим, 50% голосовало за ЕР, т.е. 25% от общего числа зарегистрированных избирателей; а где явилось, предположим, 80%, там из них за ЕР оказалось, предположим, 90%, т.е. 72% от зарегистрированных; цифры я беру с потолка, это неважно, важно, что в результате зависимость числа голосов, поданных за ЕР, от числа пришедших голосовать оказывается не линейной, а квадратичной, чего не может быть ну никак.)

А сейчас появился ещё один график, который я сначала увидел у [livejournal.com profile] object'а.

График сделан юзером [livejournal.com profile] podmoskovnik, который поясняет: "Данные скачаны мной с сайта Центризбиркома и выложены в открытый доступ; в записи http://podmoskovnik.livejournal.com/5241.html есть ссылки, а в ссылках - readme с пояснениями методики."

Мне понадобились пояснения, и я их получил (т.е. я получил от [livejournal.com profile] podmoskovnikа цифры и воспроизвёл у себя на Экселе график). Реальный процент явки округлялся до целого, так что точка, соответствующая 49%, значит "число избирательных участков, где явка была между 48,5% и 49,5%". Нормально было бы ожидать довольно плавную огибающую, иногда чуть рваную из-за флуктуаций. А имеем мы вот что: локальные максимумы распределения располагаются в точках 55%, 60%, 70%,75%, 80%, 85%, 95%, 100%. Точке 65% не повезло - попала на склон, и в ней только излом. [livejournal.com profile] podmoskovnik меланхолически замечает "Все-таки привычка красить траву нас однажды погубит."

Ну мало того, что стопроцентная явка (т.е. от 99,5 до 100%) имела место на 4940 избирательных участках и является абсолютным максимумом, но вот, скажем, 59% избирателей явилось на 2260 участков, и эта точка на склоне, но явка в 60% была обеспечена уже на 2460 участках (рывок вверх на кривой у 60%); то же самое имеет место между 69 и 70% и между 79 и 80%.
Я привожу цифры, потому что на глаз мне сначала показалось, что эти прямые отрезки шириной в 2%; нет, в 1%.
Мне лень подсчитывать вероятность такого распределения. Она слишком близка к нулю.
Я ещё раз повторяю: округление было не до 5%, а до 1%. Никаких причин для такого графика, кроме заведомой фальсификации, нет.

Re: кратные 5%-ам пики

Date: 2008-01-19 02:06 am (UTC)
From: [identity profile] dr-tambowsky.livejournal.com
Попробовать можно, но confidence начнёт стремительно падать. Нельзя безнаказанно из одних и тех же данных много раз выдёргивать под-выборки и "независимо" оценивать их статистическую значимость. То есть, что-то увидеть можно, конечно. Особенно, если какую под-выборку ни возьми, а все те же пики тут как тут :) Но в принципе - занятие требующее очень большой аккуратности, более тонких моделей и/или введения поправок на множественные тесты.

Re: кратные 5%-ам пики

Date: 2008-01-19 03:53 pm (UTC)
From: [identity profile] ixodus.livejournal.com
Не начнёт confidence стремительно падать. Дело в том, что это НЕ ОДНИ И ТЕ ЖЕ данные, а принципиально разные. И, кстати, и выборы 1995, 96, 99 гг именно так и анализировались. Уровень фальсификаций был в несколько раз меньшим, чем сейчас, но даже тогда попытки находить какие-либо закономерности, исходя из единой выборки по всей России, ни к чему путному не приводили. И не могли привести. Представьте себе, что Вы анализируете выборы в двух совершенно разных государствах,но с одинаковыми названиями участников (партий). В одной из них данные голосования фальсифицированы % на 15, во второй -- на 95. Там вообще нет, практически, никаких статистических разбросов. Но всю выборку слили в одну. И какой же смысл её в этом качестве -- единной -- анализировать?

Избирательных участков в упомянутых спецрайонах тысяч 7-9. Вот, если вывести их за пределы анализируемой выборки, то и интересно посмотреть -- что будет с пиками,кратными 5? Исчезнет этот эффект, существенно уменьшится... или же --как? А особенно интересно наложить эту картину на подобную же -- выборов, только, скорее, не 2003-го года (парламентских), а 2004-го (президентских). Ибо нынешеие выборы, ассоциирующиеся с доверием к ВВП, были ближе именно к президентским. Вот тогда сразу могут проявиться эффекты по типу наблюдавшихся в Пресненском районе г. Москвы, когда на примерног трети участков голосование было явно аномальным._(т. е. фальсификация , по крайней мере в этом районе, шла не сплошная, а через "надёжные" участки, что упрощает её оценку. Думаю, и в более широком масштабе она тоже была не сплошной).

Re: кратные 5%-ам пики

Date: 2008-01-19 04:20 pm (UTC)
From: [identity profile] bgmt.livejournal.com
А вы киньте копию этих Ваших комментов Подмосковнику, может, он сделает - он же свободно ориентируется в сырых данных. Будет интересно.

Re: кратные 5%-ам пики

Date: 2008-01-19 08:23 pm (UTC)
From: [identity profile] dr-tambowsky.livejournal.com
Я же не говорю, что неинтересно! Невероятно интересно! Проблема другая - представьте себе, что у вас есть sample. В каком-то количестве образцов есть какая-нибудь характерная особенность. Или даже так - у всех образцов есть характеристики, случайно разбросанные где попало. Вы теперь отбираете только те образцы, где характеристика лежит там где Вам нужно. Ежу ясно, что такая процедура не имеет ничего обсшего со статистикой и никакой статистической достоверности подобные руками отобранные "данные" не имеют, хотя вот ведь - у них же необычно высокая частота определённого значения характеристики!

Это такой очень грубый пример. Зато самоочевидный. Как иллюстрация. Я понимаю, что Вы другое предлагаете. Всё что я сказал, это что подобная опасность, в той или иной форме и в большей или меньшей степени присутствует всегда, когда Вы начинаете тянуть частичные образцы из одного и того же однажды собранного пула данных. Чем большее количество раз Вы производите resampling, тем большая вероятность получить любой артефакт случайно. Например, есть полный sample из, скажем 1000 наблюдений; я вытаскиваю из него и охарактеризовываю subsample из 250 наблюдений - и вижу, что в 200 из 250 этих выбранных случаев моя характеристика, скажем - 85. Вопрос тогда можно формулировать так: если я буду много раз вытягивать случайный набор из 250 измерений из моей полной коллекции (1000), какова вероятность, что по крайней мере 200 из них будут обладать значением характеристики 85? Если эта вероятность крайне мала, то Вы можете утврждать, что Ваша выборка далеко неслучайна и в ней есть какая то структура. Можно идти с другой стороны и искать всякие корреляции и/или моды в исходных данных (что тоже требует определённых коррекций, когда используется много разных тестов). Поэтому я утверждаю, что confidence level в принципе падает и полезны всякие ухищрения. А так очень интересно, я этого ни разу не отрицал.

Profile

bgmt: (Default)
bgmt

March 2022

S M T W T F S
  1 2345
6789 101112
131415161718 19
20 212223242526
2728293031  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Sep. 9th, 2025 08:34 pm
Powered by Dreamwidth Studios