Я бы не назвал это "Model compression", когда количество параметров в учителе 35 тысяч, а в ученике - 54 миллиона. Тогда уж лучше FitNets c Hints training - http://arxiv.org/abs/1412.6550. Там параметров в ученике в разы меньше, как и вычислительная сложность.
Впрочем, с хорошей инициализацией, FitNet ученики могут быть натренированы и без всякого учителя. http://arxiv.org/abs/1511.06422
Ну хоть в первом примере получилось что-то улучшить с тем же набором весов. А на изображениях - совсем неудобно :)
То есть, они прежде всего пытались показать, что можно и неглубикими архитектурами чего-то добиваться. Если они гораздо шире, достижение конечно сомнительное.
А (мне любопытно) вычислительно (суммарное к-во тактов процессора для принятия решения) работа "полной, но мелкой" сети эффективнее, чем "глубокой, но не полной"? Если примерно одинаково, пафоса нет, разве что в нюансах распараллеливания.
Я перечитал и че-то не очень. С учителем получается тренировать похожее по вычислениям лучше, чем раньше, но не лучше.
Зато вот в статье в комментах обратный подход (тренировать с учителем более глубокую сеть), уменьшает вычисления и количество параметров - http://arxiv.org/abs/1412.6550
Comments 8
Впрочем, с хорошей инициализацией, FitNet ученики могут быть натренированы и без всякого учителя. http://arxiv.org/abs/1511.06422
Reply
Ну хоть в первом примере получилось что-то улучшить с тем же набором весов. А на изображениях - совсем неудобно :)
То есть, они прежде всего пытались показать, что можно и неглубикими архитектурами чего-то добиваться. Если они гораздо шире, достижение конечно сомнительное.
Reply
Reply
Reply
Reply
Зато вот в статье в комментах обратный подход (тренировать с учителем более глубокую сеть), уменьшает вычисления и количество параметров - http://arxiv.org/abs/1412.6550
Reply
Reply
Reply
Leave a comment