Добавление к предыдущему посту
Jan. 18th, 2008 05:36 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
У меня, к сожалению, нет времени подробно разобраться во всей статистике результатов выборов. Надо сказать, что советская власть так бы не прокололась, я думаю, у них были специалисты грамотнее. Ну, про больше ста процентов за ЕР все слышали уже, про сто процентов явки в Ингушетии, где уже неделю назад 50 тысяч человек подписали заявление, что не ходили на выборы, тоже все слышали. Некоторое время назад много у кого в ЖЖ был приведён замечательный график - почти абсолютная корреляция процента явки и процента голосовавших за ЕР (для гуманитаров: т.е. если, предположим, явилась половина избирателей, то из неё, предположим, 50% голосовало за ЕР, т.е. 25% от общего числа зарегистрированных избирателей; а где явилось, предположим, 80%, там из них за ЕР оказалось, предположим, 90%, т.е. 72% от зарегистрированных; цифры я беру с потолка, это неважно, важно, что в результате зависимость числа голосов, поданных за ЕР, от числа пришедших голосовать оказывается не линейной, а квадратичной, чего не может быть ну никак.)
А сейчас появился ещё один график, который я сначала увидел у
object'а.

График сделан юзером
podmoskovnik, который поясняет: "Данные скачаны мной с сайта Центризбиркома и выложены в открытый доступ; в записи http://podmoskovnik.livejournal.com/5241.html есть ссылки, а в ссылках - readme с пояснениями методики."
Мне понадобились пояснения, и я их получил (т.е. я получил от
podmoskovnikа цифры и воспроизвёл у себя на Экселе график). Реальный процент явки округлялся до целого, так что точка, соответствующая 49%, значит "число избирательных участков, где явка была между 48,5% и 49,5%". Нормально было бы ожидать довольно плавную огибающую, иногда чуть рваную из-за флуктуаций. А имеем мы вот что: локальные максимумы распределения располагаются в точках 55%, 60%, 70%,75%, 80%, 85%, 95%, 100%. Точке 65% не повезло - попала на склон, и в ней только излом.
podmoskovnik меланхолически замечает "Все-таки привычка красить траву нас однажды погубит."
Ну мало того, что стопроцентная явка (т.е. от 99,5 до 100%) имела место на 4940 избирательных участках и является абсолютным максимумом, но вот, скажем, 59% избирателей явилось на 2260 участков, и эта точка на склоне, но явка в 60% была обеспечена уже на 2460 участках (рывок вверх на кривой у 60%); то же самое имеет место между 69 и 70% и между 79 и 80%.
Я привожу цифры, потому что на глаз мне сначала показалось, что эти прямые отрезки шириной в 2%; нет, в 1%.
Мне лень подсчитывать вероятность такого распределения. Она слишком близка к нулю.
Я ещё раз повторяю: округление было не до 5%, а до 1%. Никаких причин для такого графика, кроме заведомой фальсификации, нет.
А сейчас появился ещё один график, который я сначала увидел у
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)
График сделан юзером
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)
Мне понадобились пояснения, и я их получил (т.е. я получил от
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)
Ну мало того, что стопроцентная явка (т.е. от 99,5 до 100%) имела место на 4940 избирательных участках и является абсолютным максимумом, но вот, скажем, 59% избирателей явилось на 2260 участков, и эта точка на склоне, но явка в 60% была обеспечена уже на 2460 участках (рывок вверх на кривой у 60%); то же самое имеет место между 69 и 70% и между 79 и 80%.
Я привожу цифры, потому что на глаз мне сначала показалось, что эти прямые отрезки шириной в 2%; нет, в 1%.
Мне лень подсчитывать вероятность такого распределения. Она слишком близка к нулю.
Я ещё раз повторяю: округление было не до 5%, а до 1%. Никаких причин для такого графика, кроме заведомой фальсификации, нет.
Re: кратные 5%-ам пики
Date: 2008-01-19 02:06 am (UTC)Re: кратные 5%-ам пики
Date: 2008-01-19 03:53 pm (UTC)Избирательных участков в упомянутых спецрайонах тысяч 7-9. Вот, если вывести их за пределы анализируемой выборки, то и интересно посмотреть -- что будет с пиками,кратными 5? Исчезнет этот эффект, существенно уменьшится... или же --как? А особенно интересно наложить эту картину на подобную же -- выборов, только, скорее, не 2003-го года (парламентских), а 2004-го (президентских). Ибо нынешеие выборы, ассоциирующиеся с доверием к ВВП, были ближе именно к президентским. Вот тогда сразу могут проявиться эффекты по типу наблюдавшихся в Пресненском районе г. Москвы, когда на примерног трети участков голосование было явно аномальным._(т. е. фальсификация , по крайней мере в этом районе, шла не сплошная, а через "надёжные" участки, что упрощает её оценку. Думаю, и в более широком масштабе она тоже была не сплошной).
Re: кратные 5%-ам пики
Date: 2008-01-19 04:20 pm (UTC)Re: кратные 5%-ам пики
Date: 2008-01-19 08:23 pm (UTC)Это такой очень грубый пример. Зато самоочевидный. Как иллюстрация. Я понимаю, что Вы другое предлагаете. Всё что я сказал, это что подобная опасность, в той или иной форме и в большей или меньшей степени присутствует всегда, когда Вы начинаете тянуть частичные образцы из одного и того же однажды собранного пула данных. Чем большее количество раз Вы производите resampling, тем большая вероятность получить любой артефакт случайно. Например, есть полный sample из, скажем 1000 наблюдений; я вытаскиваю из него и охарактеризовываю subsample из 250 наблюдений - и вижу, что в 200 из 250 этих выбранных случаев моя характеристика, скажем - 85. Вопрос тогда можно формулировать так: если я буду много раз вытягивать случайный набор из 250 измерений из моей полной коллекции (1000), какова вероятность, что по крайней мере 200 из них будут обладать значением характеристики 85? Если эта вероятность крайне мала, то Вы можете утврждать, что Ваша выборка далеко неслучайна и в ней есть какая то структура. Можно идти с другой стороны и искать всякие корреляции и/или моды в исходных данных (что тоже требует определённых коррекций, когда используется много разных тестов). Поэтому я утверждаю, что confidence level в принципе падает и полезны всякие ухищрения. А так очень интересно, я этого ни разу не отрицал.