Comments | anatolix: Про массовую обработку данных, часть первая

anatolix

Про массовую обработку данных, часть первая - HDD

Feb 16, 2008 18:06

Disclaimer
Я уже много раз устно излагал свою точку зрения на массовое хранение и обработку данных, но теперь решил наконец записать свои разрозненные мысли. Наверное, последней каплей стал вопрос на хайлоад " А почему у гугля поисковые базы лежать в GFS - нет ли у вас аналогов?" (мой ответ был: и у гугля не лежат - GFS не для этого предназначен), а ( Read more... )

mass storage

Comments 38

yakov_sirotkin February 16 2008, 15:59:12 UTC

Очень хорошо, в мае в Питер на JUG? Кто производитель дискового массива?

anatolix February 17 2008, 00:26:30 UTC

Посмотрим.

Не помню. Мне кажется, что это isilon был, но могу ошибаться.

no_gritzko_here February 16 2008, 16:46:36 UTC

Премногоинтересно. Читаю, жду продолжения.

Так-то универсальный совет "всё мерять". Вот, например, сейчас в УрГУ купили дурацкий шкаф с 40 винтами и 1Gbits наружу. Там, вполне возможно, придётся минимизировать количество ненужных данных, поднятых в проц. Или если HDD вдруг меняем на SSD, то меняется расклад.

to_read_friends February 16 2008, 17:18:14 UTC

Сорри, не понял, а в чем поинт то? Вроде то, что при большой latency устройств и быстром Continuous read rate merge sort это самый правильный способ сортировки рассказывают всем студентам на 1м курсе.

anatolix February 16 2008, 18:23:08 UTC

в этой части нет поинта, это некоторое самоочевидное(но не для всех) введение, которое нужно для поинта в следующих частях

ospf_ripe February 16 2008, 23:40:35 UTC

не на 1-м, а где то попозже, но все равно к окончанию ВУЗа об этом большинство успевает позабыть...

anatolix February 17 2008, 00:24:53 UTC

На самом деле проблема скорей не в том что "подзабыть", а в том что "не прочуствовать". Мне когда про временную сложность в ВУЗ-е объясняли то я подумал "ну типа ну и что".

Когда же твоя написанная программа, после того как сделать по теории начинает тупо в 50 раз быстрей работать приходит некоторое осознание.

Но этому в ВУЗе научить сложно. Большая часть людей не то что осознания не получает, а не может код простейший писать после окончания.

Thread 7

faceted_jacinth February 16 2008, 17:24:31 UTC

А дальше будет про то, что если таки мерять скорость, то абстракция "файловая система" безбожно течёт, ибо "линейное чтение из файла" в реальности вполне может оказаться состоящим из seek'ов каждые четыре килобайта, что даст вместо ожидаемых 40 метров в секунду совсем даже наоборот меньше одного?

Или подразумевается, что хитроумная ось и за этим следит?

anatolix February 16 2008, 18:24:43 UTC

нет не может - утверждается, что если файловой системе любой современной OS "отдать много" то она сама разберется чтобы положить рядом.

raa February 16 2008, 18:11:26 UTC

что значит ниасилила? фтопку! давай продолжение уже скорее, отличный текст.