База данных для аналитики - 25 Гб в день

May 30, 2013 15:25

А кто из френдов собирал аналитику и куда?
По моим расчетам будет ~ 25 Гб в день к концу года, прям сейчас можем засунуть в pg/mongo или riak в крайнем случае.

Какие нибудь еще идеи?

Leave a comment

Comments 21

amedrr May 30 2013, 15:39:55 UTC
25Гб в день к концу года, и дальше расти, то есть в год будет база >9Тб?

Reply

alexander_mikh May 30 2013, 15:50:55 UTC
ага.
еще тут перещитали и 9 Гб в день будет через месяц.

Reply

amedrr May 30 2013, 17:51:55 UTC
А какие там данные будут лежать?
Если не нужны сложные индексы, которые будут очень долго строиться на данных, то постгрес должен подойти.

Reply

amedrr May 30 2013, 17:53:28 UTC
Тайм сериес - это хорошо... а какие-то киты вроде MS SQL server тоже не подходят в ваш зоопарк?

Reply


alexott May 30 2013, 15:41:16 UTC
смотря что за данные, насколько они часто обрабатываются и т.п. Можно писать на хадуп, а оттуда уже вытаскивать в нужные приложения нужные куски

Reply

alexander_mikh May 30 2013, 15:51:43 UTC
time series - timestamp session_id event_id action etc.

hadoop пока в наш зоопарк не вписывается.

Reply

alexott May 30 2013, 15:53:50 UTC
я видел вроде на базе hbase сделанный фреймворк для анализа timeseries (в HBase. The Definitive Guide упоминается)

Reply

alexott May 30 2013, 19:50:06 UTC
я имел в виду OpenTSDB - http://opentsdb.net/

Reply


avnik May 30 2013, 20:08:07 UTC
А риак пробовали?
С каким бэкендом (делалис ли 2i итд) и какие результаты были?

Reply

alexander_mikh May 31 2013, 09:35:29 UTC
к riak у нас сейчас второй подход, в первый раз девелоперы отбились и у нас появилась монга в 2-х местах. Во внутреннем кластере мы на монгу посмотрели и выпилили нахрен, в продакшн фронд енде выпилили grid fs.
Риак сейчас пробуем применить во внутреннем кластере, но основная проблема - нужно знать views/queries заранее, чтобы сформировать их как часть ключа или secondary index, иначе становится совсем печально и тормозные map/reduce queries. Зато с точки зрения NOC/sysadmin riak зашибись.

Reply

avnik May 31 2013, 13:28:47 UTC
У меня у самого сейчас тренировочный подход к риаку -- с учебником. Интересно как у других используется.

Reply

alexander_mikh May 31 2013, 13:33:55 UTC
наш первый подход выглядит вот так:
https://github.com/k-bx/django-riak-engine

Reply


Leave a comment

Up