Про массовую обработку данных, часть первая - HDD

Feb 16, 2008 18:06

Disclaimer
Я уже много раз устно излагал свою точку зрения на массовое хранение и обработку данных, но теперь решил наконец записать свои разрозненные мысли. Наверное, последней каплей стал вопрос на хайлоад " А почему у гугля поисковые базы лежать в GFS - нет ли у вас аналогов?" (мой ответ был: и у гугля не лежат - GFS не для этого предназначен), а ( Read more... )

mass storage

Leave a comment

Comments 38

yakov_sirotkin February 16 2008, 15:59:12 UTC
Очень хорошо, в мае в Питер на JUG? Кто производитель дискового массива?

Reply

anatolix February 17 2008, 00:26:30 UTC
Посмотрим.

Не помню. Мне кажется, что это isilon был, но могу ошибаться.

Reply


no_gritzko_here February 16 2008, 16:46:36 UTC
Премногоинтересно. Читаю, жду продолжения.

Так-то универсальный совет "всё мерять". Вот, например, сейчас в УрГУ купили дурацкий шкаф с 40 винтами и 1Gbits наружу. Там, вполне возможно, придётся минимизировать количество ненужных данных, поднятых в проц. Или если HDD вдруг меняем на SSD, то меняется расклад.

Reply


to_read_friends February 16 2008, 17:18:14 UTC
Сорри, не понял, а в чем поинт то? Вроде то, что при большой latency устройств и быстром Continuous read rate merge sort это самый правильный способ сортировки рассказывают всем студентам на 1м курсе.

Reply

anatolix February 16 2008, 18:23:08 UTC
в этой части нет поинта, это некоторое самоочевидное(но не для всех) введение, которое нужно для поинта в следующих частях

Reply

ospf_ripe February 16 2008, 23:40:35 UTC
не на 1-м, а где то попозже, но все равно к окончанию ВУЗа об этом большинство успевает позабыть...

Reply

anatolix February 17 2008, 00:24:53 UTC
На самом деле проблема скорей не в том что "подзабыть", а в том что "не прочуствовать". Мне когда про временную сложность в ВУЗ-е объясняли то я подумал "ну типа ну и что".

Когда же твоя написанная программа, после того как сделать по теории начинает тупо в 50 раз быстрей работать приходит некоторое осознание.

Но этому в ВУЗе научить сложно. Большая часть людей не то что осознания не получает, а не может код простейший писать после окончания.

Reply


faceted_jacinth February 16 2008, 17:24:31 UTC
А дальше будет про то, что если таки мерять скорость, то абстракция "файловая система" безбожно течёт, ибо "линейное чтение из файла" в реальности вполне может оказаться состоящим из seek'ов каждые четыре килобайта, что даст вместо ожидаемых 40 метров в секунду совсем даже наоборот меньше одного?

Или подразумевается, что хитроумная ось и за этим следит?

Reply

anatolix February 16 2008, 18:24:43 UTC
нет не может - утверждается, что если файловой системе любой современной OS "отдать много" то она сама разберется чтобы положить рядом.

Reply


raa February 16 2008, 18:11:26 UTC
что значит ниасилила? фтопку! давай продолжение уже скорее, отличный текст.

Reply


Leave a comment

Up