Метод Jackknife: как это сделать?

Apr 03, 2015 23:40

Всем доброго времени суток ( Read more... )

Leave a comment

Comments 21

5cr34m April 3 2015, 20:45:34 UTC
4 по 7 это мало.
и как тут может пригодится РФ - не понятно.

Reply

mih_sid April 5 2015, 18:38:29 UTC
Мне казалось, что на то и нужен бутстреп, чтобы иметь возможность ресемплировать небольшую выборку много раз и получить нужные статистики.
А какой вообще минимальный объем выборки для РФ?

У меня экспериментальное исследование: два категориальных фактора и 4 переменных отклика. Хочу применить РФ, чтобы определить влияние факторов и важность каждого из них.

Reply

5cr34m April 5 2015, 18:54:26 UTC
ну, пробуйте. смотрите пакет caret. это обертка для очень многих ML алгоритмов.
сначала очень внимательно смотрите параметры train(). думаю там есть все, что нужно.

Reply

mih_sid April 5 2015, 20:35:08 UTC
Спасибо, посмотрю.

Reply


alt17 April 3 2015, 21:46:16 UTC
Очень мало данных. И к ансамблям, ИМХО, тут можно пытаться подойти только с бутстрепом.
Опять же - в чем проблема с тем, чтобы в исследовании случайно оказались два человека с одинаковыми характеристиками? Сколько у вас вариантов комбинаций характеристик? Неужели бесконечное количество?

Reply

mih_sid April 5 2015, 18:54:43 UTC
В общем да, немного смущает возможность встретить двух людей с одинаковыми индивидуальными характеристиками в одной маленькой выборке. То есть, я понимаю суть алгоритма - повторы допускаются, так работает бутстреп, но внутренний психолог чувствует какой-то подвох:)

Нет, количество вариантов не бесконечно, но у меня 4 целевые переменные, которые измеряют одно психическое явление, только каждый по своему параметру. Между ними есть корреляции, они могут по разному комбинироваться, поэтому вариантов получается много.

Я не критикую бутстреп. Мне очень импонирует этот метод. Я просто экспериментирую.

Reply

alt17 April 5 2015, 19:26:21 UTC
Ха! А внутреннего психолога не коробит то, чем, собственно, RF отличается от единичного глубокого дерева? )))
Хорошо еще, что вы ему бустинги не показывали )

Reply

mih_sid April 5 2015, 20:33:10 UTC
Нет, здесь внутренних конфликтов не возникает:)
А с бустингом ещё не разбирался.

Reply


p2004r April 4 2015, 11:56:14 UTC
Ничего делать по моему не надо, поскольку randomForest сам весь из себя занят такими же перевыборками :)

Вот кроссвалидация вполне будет применима (как и к любому другому методу). В R есть пакет который позволяет кроссвалидацию применить к любому методу ML.

Reply

mih_sid April 5 2015, 19:01:09 UTC
Собственно, это был один из моих частных вопросов - какой метод ресемплинга использует randomForest: бутстреп, jackknife, или ещё что-то, или вообще все подряд?:)

Про кроссвалидацию у меня тоже возник вопрос. Мне не совсем понятно чем она отличается от того же складного ножа. Судя по описанию алгоритма (https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D0%B5%D0%BA%D1%80%D1%91%D1%81%D1%82%D0%BD%D0%B0%D1%8F_%D0%BF%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B0), с данными происходит тоже самое.

А как называется R пакет для кроссвалидации?

Reply

5cr34m April 5 2015, 19:09:36 UTC
см. мой комментарий выше.

Reply

alt17 April 5 2015, 19:30:28 UTC
Леса не занимаются увеличением выборки - не царское это дело. Они для своих целей как раз наоборот, сэмплят без возвращения. А дать им достаточное количество данных - забота предыдущих ступеней.

Reply


5cr34m April 5 2015, 20:08:25 UTC
и еще один момент. модель, которую РФ выдает, Крайне плохо интерпретируется. если вам нужно лучше разобраться в структуре соотношений ваших переменных, сначала лучше что-то попроще (обычные деревья если категории и что-то вроде relaxo/lasso если непрерывные).
примерно так.

Reply

mih_sid April 5 2015, 20:40:16 UTC
Я уже поработал с обычными деревьями. В некоторых случаях один из факторов вовсе выпадает, и дерево перестает ветвится. Собственно, потому я и решил попробовать РФ - хочу найти оптимальное "среднее" дерево, и посмотреть что из этого выйдет.

Reply

5cr34m April 5 2015, 20:55:58 UTC
"один из факторов вовсе выпадает, и дерево перестает ветвится."

я бы не сказал, что это плохо, да и настраиваемо.

вам в любом случае виднее.

Reply

mih_sid April 5 2015, 21:16:54 UTC
Нет, я не говорю что это плохо - возможно этот фактор действительно не информативен. Я лишь пытаюсь донести свою мотивацию в обращении к РФ. Одна из целей состояла в том, что бы проверить на сколько устойчив такой результат, будет ли выпадать этот фактор при других вариантах формирования выборки.

Кстати, здесь меня интересует вопрос о проверке статистической значимости результатов алгоритма классификационных деревьев и РФ. Как в этих методах решается вопрос о достоверности полученных результатов модели?

Reply


nokh August 14 2015, 18:09:02 UTC
Как-то запала ваша мысль о противоречии логики бутстрепа и идеи уникальности объекта, поэтому как только возникла многомерная задача с необходимостью выбора метода ресемплинга сразу вспомнил этот пост. Почитал, порассуждал и хочу согласиться. Идея уникальности объекта свойственна не только психологии, но и медицине - особенно в свете доказательной медицины (Evidence-based medicine) с её попытками к персонификации лечения. В моём случае есть несколько иммунологических показателей, которые также связаны между собой: в основе их изменчивости лежит пара-тройка общих факторов + индивидуальная изменчивость, проистекающая в том числе от уникального опыта перенесённых заболеваний, сезона, а также возраста, пола и т.д. Получается, что в ресемплинге участвует сразу вектор показателей одного человека. И вот какое рассуждение получается. Если мы используем один показатель - не вижу особой разницы между бутстрепом и с. ножом, т.к. вполне можно допустить, что в популяции будут ещё индивиды с таким значением. Может даже бутстреп лучше и ( ... )

Reply


Leave a comment

Up