Оригинал взят у
nasurdinov_ms в
Хадлей Викхам. Упорядоченные данные. 5 из 6Пятая часть перевода статьи Хадлея Викхама.
R> ggplot(data = devi, aes(x = n, y = dist) + geom_point()
R>
R> last_plot() +
R> scale_x_log10() +
R> scale_y_log10() +
R> geom_smooth(method = "rlm", se = F)
(а) Линейные шкалы
(б) Логарифмические шкалы
Рисунок 2. (а) График соотношения «n» и отклонения. Изменчивость девиации определяется размерами выборки: маленькие выборки имеют большую изменчивость. (б) Двойная логарифмическая шкала позволяет легко увидеть паттерн изменчивости так же, как и необычно высокие значения. Голубая линия является грубой линией наибольшего соответствия.
Нам интересны точки, которые имеют высокие значения y, относительно своих соседей по x-координате. Проводя измерения по количеству смертей, эти точки представляют собой болезни, которые наиболее отличаются от общего паттерна.
Для того, чтобы найти эти необычные точки, мы разместили грубую линейную модель и нанесли на график разности, рисунок 3. График показывает пустую область вокруг уровня разности 1.5. Так, немного произвольно, мы выберем эти болезни с разностью больше 1,5. Мы делаем это в два шага: во-первых, мы выбираем подходящие строки из массива данных «devi» (одна строка на болезнь), и затем мы находим соответствующие временную информацию о курсе из исходного сводного массива данных (24 строки на болезнь).
R> devi$resid <- resid(rlm(log(dist) ~ log(n), data = devi))
R> unusual <- subset(devi, resid > 1.5)
R> hod_unusual <- match_df(hod2, unusual)
Рисунок 3. Разность между грубой линейной моделью, предсказывающей log(«dist») по lob(«n»). Горизонтальная линия на уровне 1,5 показывает порог для дальнейшего исследования.
Наконец, мы строим график временной кривой для каждой необычной причины, рисунок 4. Мы разбиваем болезни на два графика, потому что они отличаются в своей изменчивости. Верхний график показывает болезни с количеством смертей более 350, нижний график с количеством менее 350. Причины смерти распадаются на три основные группы: убийство, утопление и относящиеся к транспортировке. Убийство более распространено по ночам, утопление в полдень, а относящиеся к транспортировке - во время поездок на работу утром и с работы вечером. Светло-серая линия на заднем фоне показывает график временной кривой для всех болезней.
R> ggplot(data = subset(hod_unusual, n > 350), aes(x = hod, y = prop)) +
R> geom_line(aes(y = prop_all), data = overall, colour = "grey50") +
R> geom_line() +
R> facet_wrap(~ disease, ncol = 3)
(а) Причины смерти с количеством смертей более 350 за год. Первая строка, слева направо: нападение других (убийство) и выстрел из любого огнестрельного оружия; нападение (убийство) с помощью острого предмета; утопление в естественной воде. Вторая строка, слева направо: воздействие любого электрического тока; происшествие с моторизованным или немоторизованным транспортным средством, вид транспортного средства любой; травмы пешехода в других и неустановленных дорожно-транспортных происшествиях. Третья строка, слева направо: дорожное происшествие конкретного типа, но степень ущерба транспорту неизвестна; любое утопление.
(б) Причины смерти с количеством смертей менее 350 за год. Первая строка, слева направо: происшествие с механизированным летательным аппаратом, послужившим причиной травмы пассажира; пассажир автобуса, получивший травму с другом или неустановленном дорожно-транспортном происшествии; другие конкретные виды утопления. Вторая строка, слева направо: синдром внезапной смерти младенца; жертва молнии.
Рисунок 4. Причины смерти с необычными графиками временной кривой. Общий уровень смертности по часам показан серым. Обратите внимание, что шкала y дана в разных масштабах.
Окончание следует