Мне казалось, что на то и нужен бутстреп, чтобы иметь возможность ресемплировать небольшую выборку много раз и получить нужные статистики. А какой вообще минимальный объем выборки для РФ?
У меня экспериментальное исследование: два категориальных фактора и 4 переменных отклика. Хочу применить РФ, чтобы определить влияние факторов и важность каждого из них.
ну, пробуйте. смотрите пакет caret. это обертка для очень многих ML алгоритмов. сначала очень внимательно смотрите параметры train(). думаю там есть все, что нужно.
Очень мало данных. И к ансамблям, ИМХО, тут можно пытаться подойти только с бутстрепом. Опять же - в чем проблема с тем, чтобы в исследовании случайно оказались два человека с одинаковыми характеристиками? Сколько у вас вариантов комбинаций характеристик? Неужели бесконечное количество?
В общем да, немного смущает возможность встретить двух людей с одинаковыми индивидуальными характеристиками в одной маленькой выборке. То есть, я понимаю суть алгоритма - повторы допускаются, так работает бутстреп, но внутренний психолог чувствует какой-то подвох:)
Нет, количество вариантов не бесконечно, но у меня 4 целевые переменные, которые измеряют одно психическое явление, только каждый по своему параметру. Между ними есть корреляции, они могут по разному комбинироваться, поэтому вариантов получается много.
Я не критикую бутстреп. Мне очень импонирует этот метод. Я просто экспериментирую.
Ха! А внутреннего психолога не коробит то, чем, собственно, RF отличается от единичного глубокого дерева? ))) Хорошо еще, что вы ему бустинги не показывали )
Ничего делать по моему не надо, поскольку randomForest сам весь из себя занят такими же перевыборками :)
Вот кроссвалидация вполне будет применима (как и к любому другому методу). В R есть пакет который позволяет кроссвалидацию применить к любому методу ML.
Собственно, это был один из моих частных вопросов - какой метод ресемплинга использует randomForest: бутстреп, jackknife, или ещё что-то, или вообще все подряд?:)
Леса не занимаются увеличением выборки - не царское это дело. Они для своих целей как раз наоборот, сэмплят без возвращения. А дать им достаточное количество данных - забота предыдущих ступеней.
и еще один момент. модель, которую РФ выдает, Крайне плохо интерпретируется. если вам нужно лучше разобраться в структуре соотношений ваших переменных, сначала лучше что-то попроще (обычные деревья если категории и что-то вроде relaxo/lasso если непрерывные). примерно так.
Я уже поработал с обычными деревьями. В некоторых случаях один из факторов вовсе выпадает, и дерево перестает ветвится. Собственно, потому я и решил попробовать РФ - хочу найти оптимальное "среднее" дерево, и посмотреть что из этого выйдет.
Нет, я не говорю что это плохо - возможно этот фактор действительно не информативен. Я лишь пытаюсь донести свою мотивацию в обращении к РФ. Одна из целей состояла в том, что бы проверить на сколько устойчив такой результат, будет ли выпадать этот фактор при других вариантах формирования выборки.
Кстати, здесь меня интересует вопрос о проверке статистической значимости результатов алгоритма классификационных деревьев и РФ. Как в этих методах решается вопрос о достоверности полученных результатов модели?
Как-то запала ваша мысль о противоречии логики бутстрепа и идеи уникальности объекта, поэтому как только возникла многомерная задача с необходимостью выбора метода ресемплинга сразу вспомнил этот пост. Почитал, порассуждал и хочу согласиться. Идея уникальности объекта свойственна не только психологии, но и медицине - особенно в свете доказательной медицины (Evidence-based medicine) с её попытками к персонификации лечения. В моём случае есть несколько иммунологических показателей, которые также связаны между собой: в основе их изменчивости лежит пара-тройка общих факторов + индивидуальная изменчивость, проистекающая в том числе от уникального опыта перенесённых заболеваний, сезона, а также возраста, пола и т.д. Получается, что в ресемплинге участвует сразу вектор показателей одного человека. И вот какое рассуждение получается. Если мы используем один показатель - не вижу особой разницы между бутстрепом и с. ножом, т.к. вполне можно допустить, что в популяции будут ещё индивиды с таким значением. Может даже бутстреп лучше и
( ... )
Comments 21
и как тут может пригодится РФ - не понятно.
Reply
А какой вообще минимальный объем выборки для РФ?
У меня экспериментальное исследование: два категориальных фактора и 4 переменных отклика. Хочу применить РФ, чтобы определить влияние факторов и важность каждого из них.
Reply
сначала очень внимательно смотрите параметры train(). думаю там есть все, что нужно.
Reply
Reply
Опять же - в чем проблема с тем, чтобы в исследовании случайно оказались два человека с одинаковыми характеристиками? Сколько у вас вариантов комбинаций характеристик? Неужели бесконечное количество?
Reply
Нет, количество вариантов не бесконечно, но у меня 4 целевые переменные, которые измеряют одно психическое явление, только каждый по своему параметру. Между ними есть корреляции, они могут по разному комбинироваться, поэтому вариантов получается много.
Я не критикую бутстреп. Мне очень импонирует этот метод. Я просто экспериментирую.
Reply
Хорошо еще, что вы ему бустинги не показывали )
Reply
А с бустингом ещё не разбирался.
Reply
Вот кроссвалидация вполне будет применима (как и к любому другому методу). В R есть пакет который позволяет кроссвалидацию применить к любому методу ML.
Reply
Про кроссвалидацию у меня тоже возник вопрос. Мне не совсем понятно чем она отличается от того же складного ножа. Судя по описанию алгоритма (https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D0%B5%D0%BA%D1%80%D1%91%D1%81%D1%82%D0%BD%D0%B0%D1%8F_%D0%BF%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B0), с данными происходит тоже самое.
А как называется R пакет для кроссвалидации?
Reply
Reply
Reply
примерно так.
Reply
Reply
я бы не сказал, что это плохо, да и настраиваемо.
вам в любом случае виднее.
Reply
Кстати, здесь меня интересует вопрос о проверке статистической значимости результатов алгоритма классификационных деревьев и РФ. Как в этих методах решается вопрос о достоверности полученных результатов модели?
Reply
Reply
Leave a comment