Полгода назад я бы откупорил ящик шампанского, а сейчас этой торжественной даты даже не заметил. Итак, проект датапульт вышел из альфа-тестирования и отныне является
работающим веб-сервисом по созданию различных визуализаций. А вот у меня из-за новой работы нет даже времени им как следует воспользоваться...
К счастью,
neo_der_tall подготовил неплохой датасет по активности разных народов в международной Википедии, и я могу проиллюстрировать возможности Пульта "малой кровью" (на чужих данных). Итак,
Убога ли русская википедия? Поиграться с датасетом можно здесь -
Википедия разноязычная, ну а я приведу несколько понравившихся мне картинок.
Во-первых, популярность википедии у разных народов (число зарегистрированных пользователей на 1 млн. говорящих на языке, включая тех, кто ни разу ничего не написал):
Русский язык (раскраска идет не по странам, а по носителям языка, поэтому посреди Африки имеется красное пятно - англоязычная (упс!) Нигерия) - полный аутсайдер. Лишний пример того, что русские после почти столетней дрессировки "сиди и не высовывайся" мало склонны делать добро соплеменникам - еще подумают, что боишься, и решат, что терпила.
Число статей (на 1 млн. говорящих):
Здесь уже сказывается советское наследие - хотя среди русских альтруистов и днем с огнем не сыщешь, но если уж кто нашелся, то он будет покультурнее среднеафриканского альтруиста. Поэтому число статей на 1 млн. вполне достойное, на уровне Бразилии.
И наконец, зависимость числа статей от числа активных пользователей:
Как видите, массовая культура - вопрос скорее числа, чем умения. Один супер-мега-гений не заменит (по числу охваченных тем) сотни середняков. Размеры кружочков отражают "глубину правки" статей; угадайте не заглядывая в первоисточник, какому языку принадлежит самый большой кружок болотного цвета :)
Ну а теперь краткая похвала всему проекту. Собрав датасет из 16 показателей, мы получаем возможность построить сотни визуализаций. Построение одной картинки к другой происходит в нашем датапульте за доли секунды, в отличие от многих других серверов ("толстый клиент", однако). Таким образом, появляется возможность разделить труд - одни собирают данные, другие их анализируют, что я и продемонстрировал на датасета по википедиям. Наш датапульт - своего рода википедия для данных!
P.S. Вот только есть у меня подозрение, что русские, как следует из рис.1, не слишком-то поторопятся делиться своими датасетами. Потому-то проект и называется - Simplest Way to Visualize, Store, and Publish Your Data Rows, а не "Лучшее место для хранения и визуализации Ваших данных".