Часть Первая - наброски к портрету ЖЖ

Apr 15, 2005 03:15

.
( Продолжение здесь: http://www.livejournal.com/users/muzyka_sfer/1093.html -- оценки точнее, и картинки на-мно-го красивее и движутся ;)) )
.
Общая идея

Решение проблемы преследований по финансовым интересам под прикрытием все время подновляемых под давлением корпораций "законов о копирайте" не в согласном кивании головой в знак протеста (какие гады), и может быть даже не в попытках блокировать законы - слишком сильны ин протакивающие, причем на весь мир, корпорации.
Решение - в создании такой технической инфраструктуры, чтобы "там" поняли, что с новой реальностью невозможно бороться и нужно искать другие модели сбора денег.
Как, например, никто не пытается законом запретить телевизионные новости - потому что газеты отстают (вместо этого в 50-60 была война за деление доступа к ТВ через публичный псевдо-скандал).
Нужно создать такую структуру интернет-сохранения текстов и обмена ими, которая сделает невозможными акции преследования.

Я попробую изложить соображения в ряде статей, проект объединяет заглавная мысль о копирайте; однако я сильно отвлекусь на одну ее часть, потому что она интересна сама по себе: портрет русского ЖЖ.

1. Постановка задачи ;))

ЖЖ давно занимает особое положение в русской культуре: в отличие от американской части, которая тоже весьма популярна (около 6 миллионов зарегистрированных пользователей всего, вместе с русскими, как указано на заглавной странице, и около 2.6 миллионов из них активных), русский ЖЖ объединяет взрослых, часто представителей образванной элиты, со всего мира. Он давно стал культурным уникальным феноменом совершенно иной природы чем другие блоги, форумы, NNTP news groups и так далее.

Из этого представления об уникальности и понимания, что вольница Интернета имеет шансы со временем сильно уменьшиться возникают размышления о том, как сохранить свободу выражения и обмена информацией.

Мне кажется, сделать что-то можно и довольно легко:
(под lj-cut'ом одна картинка и ссылки на 3 другие, все по 50-80кб)


ЖЖ должен остаться тем же, но получить систему P2P бэкапа и постепенно возможность работать без центральных серверов; они останутся лишь чтобы обеспечить поиск, передачу сообщений об изменениях IP (и обеспечивать "бизнес модель" для хозяев ;)) ).
Это совершенно практично и достижимо "дома на коленке", желанием ЖЖистов запустить конфигурацию стандартных существующих программ на своих машинах, веб сервер и несколько скриптов, все простое, бесплатно и под лицензией ГНУ.
В процессе инженерных прикидок как сделать и будет ли устойчиво работать, встал вопрос о том, насколько интенсивны, разрушаемы или устойчивы системы социальных связей ЖЖ.

Оценить можно: информация о топологии ЖЖ под рукой, скачивание всего нескольких мегабайт доступно и быстро.
Топологию (граф) можно сопоставлять с другой доступной информацией; из данных можно извлечь ответы на ряд интересных вопросов:
-- размер русского ЖЖ
-- Связанность
-- устойчивость к намеренному разрушению связей или просто неприсутствию в данный момент (как если бы P2P сетка работала среди модемных соединений)
-- близость (через сколько друзей жжист А достигнет жжиста Б?), характер сети. Сетки оценивают по их характеру, например часто на факультетах Computer Science постулирую small-world model, рисуют сетку в клеточку и обсуждают поведение на ней P2P протоколов как будто так и надо. Иногда, правда, оговаривается, что как на самом деле, никто не знает.
-- Значит, если мы точно узнаем, возникает возможность проверять поведение системы "по-настоящему", на модели приближенной к реальности. Имея в виду перевод ЖЖ в распределенный режим, сетка социальных связей оказывается, более того, идеальной моделью, пределом к которому пришла бы реальная система в отсутствие всяких помех (таких, как отсутствие у каждого постоянной связи).
Более того, социальная структура ЖЖ представляет собой идеальную модель общения вообще, пределом, к которому те пришли бы не будь физических ограничений в смысле необходимости быть вхожим в круг, физически присутствовать и так далее. В этом смысле блогосфера - интереснейший феномен "чистого" общения, недостижимого предыдущим поколениям.

И так далее. Кроме того, такое рассмотрение дало бы возможность как-то понять структуру общения (например, как распространяются по сетке конкретные новости) а различие между групповой (например, американской и русской) самоорганизацией ЖЖистов может быть показало бы социальную сторону вопроса.

Подсчет средних цифр не слишком информативен: русский ЖЖ - плохо соединенные острова или галактики плотных связей в пустом космосе? Клубок? Как бы это посмотреть глазами.

Ответ оказался на поверхности. Люди, занимающиеся картографированием Интернета давно разработали прекрасные программы визуализации массивных графов от десятков - до сотен тысяч (верхяя цифра, которую я видел - порядкa 500 000) вершин (nodes).

Визуализация иногда прямо отвечает на вопросы, иногда подсказывает какие модели и подсчеты использовать дальше

Итак,

Портрет Русского ЖЖ

1. Как собирать информацию?
(а)Очевидно, Friends, Friend of и mutual friends достаточны для выявления топологии сложившихся связей.
Crawl, ползание и составление списков имен можно делать естественно (X-friends of X- FF of X etc.). Гарантии того, что мы останемся в границах русского ЖЖ нет, но практика показывает что это так:
связи mutual friends культурно устойчивы.
Первый вывод в том, что связи кажется очень плотны: 2е поколение взаимных друзей (X-FX-FFX), самой узкой категории, дает десятки тысяч имен.
В моих картинках я строил графики до 67 тысяч (русских!) ЖЖ nodes, после чего программа склеила ласты (точнее, надо изменить системные параметры, а мне лень).
Эта прикидка неточная. Может быть критерием приближения к полноте могла бы стать "сходимость", в том смысле, что новые личности незначительно пополняют суммарный список имен.
(б) Однако ползание по друзьям по определению покажет картину намного более связную, там принципиально не будет вершин без хотя бы одной связи - за исключением случаев, когда произвольно берутся построения по подмножествам.
Другой чуть менее очевидный способ - отталкиваться от популярных постов (зайдет кто угодно) или от внешних списков (например, у меня есть картинка по списку "известных людей в ЖЖ".
(в)Дольше всего - но с потенциальной возможностью наловить абсолютно изолированные части - если они вообще существуют, против чего сильно возражают уже собранные данные - выделять русские посты через feed новых.

Построения здесь - граф вчерашнего спекулятивного поста про деда-ветерана, который умер на улице. Вчера там было порядка 450 откликов, сегодня что-то 700.
Взяв друзей этих постеров и сузив списки до их взаимных друзей, я построил граф (т.е. запустил списки в скрипты которые я написал за выходные, которые выделили имена и построили дерево обхода, которое было записано в формате, который принимает программа), который может быть даст первую догадку насколько может оказаться плотен и связан и как организован русский ЖЖ.
[ Note: этот текст представляет первую часть рассмотрения. Во второй здесь: http://www.livejournal.com/users/muzyka_sfer/1093.html
- оценки точнее, картинки намного красивее и они движутся ;))]



2. Что это и что там видно?

Программа строит VRML-миры, по которым можно летать, проближаясь к "галактикам", обрезая ветки, показывая связи удаленные на 2,3,5, 9, 15 шагов.
Мир построен на основе дерева , мой скрипт прочитывая текстовый файл с именами взаимных друзей образует характерные "венчики", образуя связи, потом идет дальше.
Размеры "галактик" и цветков не важны и меняются при движении по миру (авторы выбрали проекцию на сферу, что близко, то огромно).
Еще картинка, с непрозрачными связями - на заглавной нитки сделаны "прозрачными" чтобы не заслонять вид.
Еще картинка
Еще одна, то же, вид сбоку

Для построения я создал некого виртуального ЖЖиста "дед" (по теме статьи), у которого в условных друзьях все оставившие комментарии, а затем вселенная получилась из взаимных друзей этих ЖЖистов.

Вопрос ставился так: насколько могут оказаться связаны друг с другом случайные люди оставившие комментарии (в скандальные статьи скорее попадет кто угодно, помимо постоянного круга читателей).
13 апреля этот мир состоял из 10682 людей, между которыми оказалось около 14800 связей (промерно 450 комментариев с повторениями).
14 апреля в мире там уже 14470 участников и 21873 связи между ними (около 700 комментариев на тот момент, из них 315 уникальных)
Такой рост числа потомков первого поколения от 315 непосредственых разных комментаторов в ветке интересен сам по себе, он дает в среднем 45 потомков на комментатора - однако граф представляет ситуацию точнее.

На всех картинках видны кружки точек без связей вокруг коренной точки графа, "деда". Это ЖЖисты без взаимных друзей вообще.
Программа по спирали разместила все более и более крупные гроздья друзей (см. картинку номер два с одним деревом); к ним начинают протягиваться связи от облака сверху, где выросли самые массивные (см. картинку номр 3) На самом деле это грозди знакомых друг с другом.
Поражает (а) огромное число связей в облаке и (б) короткие пути в нем.
Типично в кластерах ЖЖистов "облака" перестают меняться после 3-4 скачков (позже дам картинки).
В ветках с бедными связями как правило насыщение наступает на 10м скачке

Построенный не для одного обсуждения, но по примерно 7000м файлов с друзьями (около 67 тысяч вершин графа, около 366 тысяч связей), русский ЖЖ - похож на дворцовую люстру замотанную тканью или паутиной когда не используется режим показа одного только дерева. Программа не упрощая действительно вырисовывает каждую линию (есть правда отдельный режим, делающий нитки "прозрачными")

Я не тратил время на подробный harvesting информации об американцах; мое построение по 10000 пользователей, от имени к имени, в резком отличии от русского ЖЖ показало отдельные кластеры до средней величины и ничего похожего на русское облако.

ПРОДОЛЖЕНИЕ СЛЕДУЕТ:
Позже в подтеме "портрета русского ЖЖ" я хотел бы повесить картинки с "портретами" тусовок известных людей ЖЖ, на то, как разрушаются связи (я скриптом случайным образом убирал имена уменьшая количество связей до 80, 64, 38% от реальных), сколько народу охватывает удаление от root node на 2,3,4 скачка, на характер вселенной русского и подмножества американского ЖЖ и и так далее.

( Продолжение здесь http://www.livejournal.com/users/muzyka_sfer/1093.html
Оценки точнее, и картинки намного красивее ;)) )
Next post
Up