мне всегда представлялось что "когда окончательно выяснилось что мы облажались с идентификацией данной системы" то прибегают к глубокомысленному исследовании "чувствительности параметров" :)
... но признаю что возможно в этом всём есть некий глубокий смысл, раз написана целая книга.
Там много примеров решения интересных практических задач, очень далёких от просто "глубокомысленного исследования чувствительности параметров". Стоит прочитать, тем более действительно читается очень быстро; я за несколько дней проглотил.
Прости, но по описанию смахивает на фигню. Если только речь о том, как уменьшить этот самый сэмплинг. В общем случае оценки объема тестовой выборки (и зависимости того, что можно сказать по выборке заданного объема) давным давно известны, зависят, скажем, от коэффициента Липшица функции модели, если его можно посчитать. А для линейных моделей и того проще. Ну и есть еще и теория устойчивости.
Не пойми меня не правильно, мне кажется, работать с моделями с 1000 параметров, используя методы книжки "для чайников" -- это обманывать себя и начальство.
Нет, речь совсем не только об уменьшении сэмплинга; пост вроде бы этого и не утверждает.. Я уже засыпаю и отвечу коротко, списком ключевых слов про другие интересные методы - elementary effects method, low discrepancy sequences, и вообще variance-based sensitivity analysis. Погугли про них и посмотри table of contents... видимо, я плохо описал.
Книжка не для чайников - просто так уж получается, что для использования описанных там методов достаточно базовых знаний; а книжка сугубо практическая и доказательств содержит мало.
Я вообще стал её читать, т.к. задался вопросом "как вообще что-то сделать, например, с датасетом всех mapreduce джоб в гугле за последний месяц" - в этом датасете куча значимых переменных (минимум десяток-другой), они очень разнородны и очень взаимозависимы. Кажется, свет забрезжил.
Я занимался в аспирантуре многокритериальной оптимизацией, поэтому немного представляю эту тему. Кстати, если в твоем датасете есть выходные характеристики, для которых можно сформулировать направление оптимизации (типа, это надо больше, это меньше), то смотреть надо не на все, а только на паретовскую границу множества достижимости. Сильно упрощает.
как бы да, я как то не нашел в table of contents знакомых слов Pareto front optimisation. Для оптимизации многомодальных функций достаточно типично строить Pareto front и даже concave или convex форма позволяет уже принимать решения о зависимости параметров. А книжка что то дорогая.
Comments 16
... но признаю что возможно в этом всём есть некий глубокий смысл, раз написана целая книга.
Reply
Reply
Не пойми меня не правильно, мне кажется, работать с моделями с 1000 параметров, используя методы книжки "для чайников" -- это обманывать себя и начальство.
Reply
Книжка не для чайников - просто так уж получается, что для использования описанных там методов достаточно базовых знаний; а книжка сугубо практическая и доказательств содержит мало.
Я вообще стал её читать, т.к. задался вопросом "как вообще что-то сделать, например, с датасетом всех mapreduce джоб в гугле за последний месяц" - в этом датасете куча значимых переменных (минимум десяток-другой), они очень разнородны и очень взаимозависимы. Кажется, свет забрезжил.
Reply
Я занимался в аспирантуре многокритериальной оптимизацией, поэтому немного представляю эту тему. Кстати, если в твоем датасете есть выходные характеристики, для которых можно сформулировать направление оптимизации (типа, это надо больше, это меньше), то смотреть надо не на все, а только на паретовскую границу множества достижимости. Сильно упрощает.
Reply
А книжка что то дорогая.
Reply
Leave a comment