Подготовил к участию в конкурсе Long Text Compression Benchmark вариант алгоритма сжатия данных на основе PPM.
По современному состоянию дел, этот алгоритм может конкурировать с распространёнными архиваторами типа WinRar и 7zip, но не может конкурировать с более современными алгоритмами из семейства PAQxxx, использующими Context Mixing
(
Read more... )
Comments 62
Тэг бы хоть поправил бы )))
Я вообще то "сварщик" не очень настоящий в сжатии. Точнее, это вотчина математиков чистых больше, чем программистов. Я использую для сжатия чисто текста, 1) каскадные словари 2) и уже словари - жму дополнительно лослессом до упора, как и собственно сам текст. Общий смысл. Перевести все слова которые играют хоть какую либо статистическую роль (а для этого надо иметь набор текстов более 2-3 гиг, что немного, но в целом уже достаточно для работы), после чего основные "словесы" отправляются в словарь. Это само по себе обеспечивает неплохой коэфициент сжатия. С учетом того, что это даже не сжатие как таковое. Остальное - это именно работа с форматом файла. Который сам по себе достаточно своеобразный. Он требует очень многого, вплоть до "сервисных меток" в тексте. Ибо вариант номер два, распаковывать в память не только словари, но и текст, с переводом его в "обычный вид". Так как сам по себе формат, чем то напоминает непрерывный архив в раре. То есть нет возможности найти конкретное место (или в случае винрара ( ... )
Reply
Я с этим тэгом провозился час. Редактор ЖЖ превратился в сраное говно, в новой версии просто невозможно писать html-тэги, нет такой возможности больше. Как ты с этим борешься?
Reply
Открываешь "НАПИСАТЬ" - и там в пулл дауне лежит "использовать старый редактор". Кликаешь, и радуешься что это говно не надо пользовать. Но вскоре боюсь посты придется писать чисто в семаджике, потому как старые варианты ёбанная жижа отрубает через годик.
( ... )
Reply
Это же какой-то позор, делали бы что-то хорошее, но нет - они превращают ЖЖ в какой-то твиттер.
Reply
Эмммм, а нахера оно по нынешним временам вообще надо - сжатие?
Только если всякий лосслесс архивировать.
mp3 и h.265 один хер ужать не получится, а тексты жать смысла нет - объемы не те.
А для лослесс аудио надо специализированные алгоритмы разрабатывать.
ЗЫ. Емнип что рар, что 7з давно умеют что в ppm что в lzma. И смысл свою реализацию пилить?
Reply
Я занимаюсь этими алгоритмами из тяги к искусству :)
Reply
А вот такой тогда вопрос: может имеет смысл перевести данные в троичную сс и сжимать троичное представление данных?
Будет оно лучше сжиматься или хуже?
Будет ли вообще разница?
И если будет то в пользу какой системы? И насколько большая?
Reply
На практике, двоичная система по целому ряду причин удобнее.
В том числе, она учитывает особенности представления данных - кодировки символов, формат вещественных чисел, так что позволяет учесть информацию, которая потеряется при переводе в троичную систему.
Так что, нет, троичная система для современных форматов данных не представляет бонусов.
Reply
Прямо полный набор - и общение словестной окрошкой, где отсутствуют связи между предложениями, и аргументация непонятными намёками со ссылками на ему одному известные вещи, и убеждённость в собственной экспертизе во всех вопросах при незнании элементарных вещей, и идеи-фикс, к которым постоянно всё сводится (какой-то бред про средневековые государства, зловредных русских, великий void*, спившихся соседей по подъезду, которых он переодически находит в кустах и специальные операции специальных спецслужб).
Не удивлюсь, если окажется, что он состоит на учёте в дурке и периодически бегает вокруг дома без трусов, чтобы сбить с толка вражескую разведку.
Reply
Вы просто поделились впечатлением, или что-то предлагаете?
Reply
Reply
Leave a comment