Енотик на конференции

Jun 15, 2015 20:48

Про собственно Бостон будет еще поста два или три, а сейчас о том, зачем Енотик ездил в Бостон.


Итак, CVPR, топовая конференция по компьютерному зрению. Бюджет по минимальным прикидкам (стоимость регистрации + спонсорства - больше $1,5 млн).

2260 зарегистрированных участников, 602 статьи (28,4% от присланных работа), 71 устная презентация (3,3% от присланных).

Собственно тут я понял, как должна выглядеть научная конференция и какие у нее цели.

Первая и главная - внезапно - поделиться работой с коллегами и получить обратную связь. Вторая - посмотреть, чем занимаются эти самые коллеги, ведь читать все статьи - нереально. (Еще раз привет эсперансистам "все равно все основные результаты переводятся"). Разница с "потусоваться, ну и без выступления не напечатают", как обычно на конференциях у нас, настолько велика, что ...просто нет слов. Да, у нас есть еще прекрасные семинары в некоторых отделениях Но...но. Еще тут понимаешь, что более высокой инстанции нет - вот они топовые ученые. И если чего-то еще нет, это не потому что мы не знаем (ну ок, есть еще смежные области - ICRA, NIPS, SIGRAPH, ну и проекты типа IBM Watson или Google Car, хотя они-то обычно тоже светятся на конференциях), а их вот просто сейчас нет. Сюда бы любителей теории заговора, хотя все равно без толку.

Маркетинг. Вы будете смеятся, но он (в хорошем и глобальном смысле) нужен. Если у вас прорыв века - да, скорее всего люди простят невнятную презентацию, отсутствие исходников на сайте и непонятный плакат. Если же просто хорошее исследование, но вы не сможете донести до людей идею и заинтересовать, то все плохо. На постер-сессию отводилось 3-4 часа. Постер-сессия в себя включает ~100 плакатов. Вот и считайте, сколько времени приходится на один плакат и сколько у работы шансов быть замеченной и процитированной, если вы не сможете привлечь\удержать внимание в первые 5 секунд. Кстати, принцип "быть не лучше, быть другим" работает на все 100%. На конференции было статей 40 по семантической сегментации с помощью нейросетей. Думаете, кто-то будет читать все сорок?

Кстати, даже CVPR не застрахован от плохих статей. Лично я насчитал штук пять, которые полная хрень и проехали за счет того, что сравнивают со слабыми конкурентами, а рецензенты не заметили.

Но хороших, разумеется, намного больше. Даже в такой, казалось бы старой области, как геометрия, постоянно возникает что-то новое - потому что есть нерешенные практические задачи, которые требуют перламутровых пуговиц. А иногда хоть каких-то.

Из запомнившегося не по "специальности".

Доклад на воркшопе представителя Google X про гугломобиль.

Собирание паззла. Надо будет написать координатору "Канцелярской сотни", хотя технология у израильтян пока только в зачатке.

Виртуальное расслоение картин - в секции по вычислительной фотографии. Например, можно восстановить картину, на которой написали другую. Разумеется, без физического контакта.


Боке и размытие фона для мобильников от Гугла - по нескольким фото в серии вычисляется карта глубин и все ненужное размывается.

Определение свойств ткани по видео.


3D-модель мира (ну ок, на самом деле ряда мегаполисов)

Уже и так накатал простыню, но добавлю еще про мой доклад.


Австралийский центр роботного зрения (или как перевести Australian Centre for Robotic Vision) решил немного свести вместе комьюнити computer vision и комьюнити robotic science. Для этого на соответствующих конференциях (ICRA, CVPR) провели воркшопы на тему разпознования локаций в меняющихся условиях и запустили соревнование на тему. Дан набор фотографий, где робот (на самом деле, человек, велосипед, авто и поезд) уже был - memory. Только картинки, никакой геолокации.
И есть тестовый набор ("мы едем тут сейчас" - live), нужно найти в memory соотвствующую фотографию места или сказать, что мы тут еще не были.
Звучит не очень сложно, но трудность в том, что memory снимался, например, зимой, а live - летом. Часть фоток снято на отстойную мобильную камеру ночью, на части - стекло запотело. А еще, например, с прошлого посещения места, построили мост.

Временных рамок у соревнования нет, кто угодно может присылать результаты, авторы планируют расширять датасет, в частности, добавив фотографии внутри помещений.

Пока прислали результаты три группы. Две от robotic сообщества - из Германии и Испании, обе использовали нейросети.
И мы (CMP, Чешский технический университет) от computer vision с классической BoW моделью без нейросетей. Собственно, распознаванием мест я никогда не занимался, но сравнивание картинок зима-лето, день\ночь\ИК - как раз то, чем сейчас занимаюсь.
На данный момент у нас лучший результат с нормальным отрывом.

Уже после отправки результатов мы нашли несколько багов и не все успели доделать, так что есть что и как улучшать. С другой стороны, как только появится датасет размера ImageNet для такой задачи, думаю, нейросети возьмут свое.

Далі буде.

Бостон, наука, computer vision

Previous post Next post
Up