Теперь подорожает ? :) Кто то подскажет где можно нормально "поигратся" с Большими Данными ? И собственно с чего начать и какие задачи ? А то как начал про них читать - там больше технической работы - многопоточность, дублирование инфы, Hadoop (тоже как с ним поработать не знаю), знания Джавы и т.д. Типа больше на задачи "ETL" похоже, а не на нормальный человеческий анализ (ну понятно что иерархическую кластеризацию на Тбайте делать низзя, но что то другое попробовать то можно - инфы нету что с ними делают). Некоторые вообще пишут, что БД - это просто организованый метод "добычи кучи данных", а не их анализ.
2. От этой фирмы масса лекций в Интернете описывающих интеграцию R и Hadoop. Второй вариант (который ява) -- максимально готовый к употреблению H2O кластер.
3. Большие Данные все таки немного имеют привязку к тому что собственно интересует. Например выгружайте всю базу интернет библиотеки и анализируйте тексты, вполне себе "большие" получиться. Надо конкретизировать что интересует конкретно.
Технологически всё сводиться к возможности посчитать обычную регрессию -- данные столь плотно покрывают пространство возможных значений, что работает простая интерполяция. Если это не так, то всё действительно сводиться к "чисто технической проблеме пропустить через комп много данных".
Ну вроде с карьерой должно стать получше если можно будет сказать "я - от Майкрософта!". Кроме того сразу же появилась программа сертификации со стандартной майкрософтовской ставкой за экзамен в 200 долларов. Плюс пиар, плюс встроенность в их Облако - конкуренция амазоновскому.
Ну возможно нападки всякие от инвестпроектов типа юлии ослабнут несколько. Мне все таки подход "купить готовое", а не "исправить один фатальный недостаток проекта" нравиться больше.
Comments 7
Reply
2. От этой фирмы масса лекций в Интернете описывающих интеграцию R и Hadoop. Второй вариант (который ява) -- максимально готовый к употреблению H2O кластер.
3. Большие Данные все таки немного имеют привязку к тому что собственно интересует. Например выгружайте всю базу интернет библиотеки и анализируйте тексты, вполне себе "большие" получиться. Надо конкретизировать что интересует конкретно.
Технологически всё сводиться к возможности посчитать обычную регрессию -- данные столь плотно покрывают пространство возможных значений, что работает простая интерполяция. Если это не так, то всё действительно сводиться к "чисто технической проблеме пропустить через комп много данных".
Reply
Reply
Reply
Reply
Reply
Reply
Leave a comment