Физлабы не прошли даром.....+)

Jun 18, 2006 04:34


ЛАБОРАТОРНАЯ РАБОТА №1.

ЧЕСТНОСТЬ КАК ФУНКЦИЯ ВОЗРАСТА И МЕСТА ПРОПИСКИ.

Цель работы.
Оценить, сколько полезной информации реально выжать из источника, бесполезного в общем и целом.

Оборудование.
Мозг, клавиатура, инет, большой пакет мате "Карнавал".

Методика эксперимента.

Заходим на сайт знакомств.
Я изучал систему сайтов, включающую ресурсы http://mamba.ru/, http://love.rambler.ru/, http://love.mail.ru/ и прочую ересь, - все эти сайты имеют общую базу анкет. В этом могли убедиться те, кто пытался пробивать в Яндексе инфу о зацепившей их девушке и вдруг (нужно составить грамотный запрос) находил пару десятков её анкет на разных сайтах - реально это одна анкета, проиндексированная на каждом сайте отдельно.

В разделе «поиск» вводим запрос:
я - парень, хочу - девушку, в возрасте - от X до Y, в городе - Большие Зелюки (ну или везде хочу, независимо от города....+).

Результат поиска - список удовлетворяющих запросу анкет: сверху указано число, сколько именно таких анкет найдено.

Возвращаемся в «поиск». Вбиваем одинаковый возраст в поля "от" и "до" - тогда, на запрос «от 18 до 18 лет» система выдаст, сколько 18-летних девушек зарегистрировали свои анкеты. Копипастим их количество в таблицу. Выполняем эту нехитрую операцию для возраста от 18 => пока не надоест. Автор осилил составить список вплоть до 50. По правилам сайта, запрещено регистрировать анкету лицам до 18 лет (поэтому, кстати, вы можете наткнуться на малолеток, которым как будто 18).

Составляем такой же список (количество анкет в зависимости от возраста) для:
- москвичей;
- москвичек;
- россиянок;
- россиян.

Из данных для России вычитаем данные для Москвы - чтобы результаты для страны не искажались влиянием столицы.

Анализ и обработка данных.
Строим график: количество зареганных анкет как функция возраста.

График 1: Россия без Москвы. Красным показаны девушки, синим - молодые люди.


Анализ:
1. Точки графика отменно ложатся на экспоненту.
2. На 25, 30, 35, 40 лет как у мужчин, так и у женщин видны характерные всплески. Люди любят округлять свой возраст. Причём, думается, не в большую сторону :)
3. На сайте нельзя регаться раньше 18, к тому же в молодые годы у людей по другим законам развиваются отношения. Поэтому мы наблюдаем краевой эффект - выход на экспоненту происходит только к ~22 годам.
4. От 18 до 22 у парней посещаемость сайта знакомств меняется слабо - что естественно, т.к. многие пока не готовы выбрать себе пару и покинуть сайт - т.е аудитория от 18 до 22 более-менее постоянна (её численность убывает, но слабо, по сравнению с экспонентой).
5. Огромное количество девушек в возрасте 18 и 19 (по сравнению с той же самой постоянной аудиторией 20-22 лет) - это эффект малолеток, тусующихся на сайте. Они указывают свой возраст 18, а некоторые потом взрослеют до 19...+) Прикинув реальный объём постоянной аудитории, мы можем оценить количество малолеток: в России это порядка 20000 (30%) и 7000 (15%) для 18 и 19 лет соответственно. Среди парней малолетки почти не регаются, что естественно, ибо в 17 лет пацаны ещё интересуются футболом, компьютерными играми и пока не заморачиваются из-за подобной ерунды, как остутствие девушки.
6. Ассимптота (уровень, к которому приближается экспонента при Х устремленном в бесконечность) у девушек положительна, у парней отрицательна. Другими словами (с некоторой погрешностью, естественно), на сайте всегда присутствуют дамы практически любого возраста, мужики же к 50 годам начинают вымирать... Это согласуется со здравым смыслом, если вспомнить, что их средняя продолжительность жизни меньше 60 лет.....
Девушки! Немедленно хватать, беречь, любить и лелеять...!*)

Для данных по Москве строим такой же график.

График 2: Москва.


График имеет все те же особенности.
Количество малолеток: 6000 (30%) и 2500 (15%). Оценки грубые и сравнивать, где процент больше - в Москве или по России - трудно.

Обратим внимание на величину всплесков. Кто сдавал физлабы, делал подгонку результатов и спихивал их на сдаче, сможет на глаз прикинуть среднеквадратичное отклонение :) и без труда заметит, что всплески у московских девушек сильнее, чем у россиянок, т.е. точки хуже ложатся на экспоненту.

Чтобы подтвердить или опровергнуть предположение, построим график: размер всплесков (т.е. оклонение количества зареганных анкет от ожидаемого значения на экспоненте) в процентах от ожидаемого количества анкет.
Точки 20 и 50 лет отмечать на графике не стали из-за того, что для 20 лет имеет место краевой эффект, а к 50 экспонента близка к нулю - в окрестности нулевых значений очень высока относительная погрешность.

График 3: процент людей, лгущих о своём возрасте. Синим - мужчины, красным - женщины, закрашенным - Москва, контуром - Россия.


В целом мужики врут меньше (что естественно, ибо, как упоминалось, они и не парятся из-за лишней ерунды - из-за возраста тоже :).
Россияне и москвичи примерно одинаково кладут на возраст.

Между россиянками и москвичками идёт активная борьба за лидерство. Лишь раз россиянки незначительно опережают, но в целом девушки из Москвы лидируют.

Москвички больше врут. Как есть...+))

Автор признаёт, что графики можно было построить лучше, но его ломает переделывать.
Автору стыдно, что цифры для возраста от 18 до 55 он четырежды вбивал в эксель вручную, подгружая каждую страницу. Он обязательно прошарит, как писать скрипты, и поставит всё на автоматику - круглосуточный мониторинг и всё такое...*)
Из вариантов развития идеи:
- провести мониторинг возрастных групп, находящихся в онлайне, в зависимости от времени суток,
- сравнить честность девушек из Москвы, Питера, Новосибирска, Екатеринбурга,
- исследовать гомосексуальную аудиторию. Могу даже сразу сказать, какой город будет лидировать по проценту гм..... ну вы поняли.......
Разрешается копирование и использование данных материалов со ссылкой на источник. Без ссылки ногами бить не буду, но имейте совесть...........+))

Все девушки, заинтересовавшиеся исследовательским проектом, могут оставлять свои комментарии и пожелания.

Все предложения (девушек) будут рассмотрены.....+))))

Напомню, что целью исследования была возможность извлечения информации из её бессодержательного потока, желательно, не сильно напрягаясь и не особенно отрываясь от стула......+)))

[use], [crea]

Up