Об алгоритмах сжатия данных

Jan 31, 2023 15:28


Подготовил к участию в конкурсе Long Text Compression Benchmark вариант алгоритма сжатия данных на основе PPM.

По современному состоянию дел, этот алгоритм может конкурировать с распространёнными архиваторами типа WinRar и 7zip, но не может конкурировать с более современными алгоритмами из семейства PAQxxx, использующими Context Mixing ( Read more... )

забавы, программирование, пиздострадания

Leave a comment

Comments 62

vladicusmagnus January 31 2023, 14:53:48 UTC

Тэг бы хоть поправил бы )))

Я вообще то "сварщик" не очень настоящий в сжатии. Точнее, это вотчина математиков чистых больше, чем программистов. Я использую для сжатия чисто текста, 1) каскадные словари 2) и уже словари - жму дополнительно лослессом до упора, как и собственно сам текст. Общий смысл. Перевести все слова которые играют хоть какую либо статистическую роль (а для этого надо иметь набор текстов более 2-3 гиг, что немного, но в целом уже достаточно для работы), после чего основные "словесы" отправляются в словарь. Это само по себе обеспечивает неплохой коэфициент сжатия. С учетом того, что это даже не сжатие как таковое. Остальное - это именно работа с форматом файла. Который сам по себе достаточно своеобразный. Он требует очень многого, вплоть до "сервисных меток" в тексте. Ибо вариант номер два, распаковывать в память не только словари, но и текст, с переводом его в "обычный вид". Так как сам по себе формат, чем то напоминает непрерывный архив в раре. То есть нет возможности найти конкретное место (или в случае винрара ( ... )

Reply

drew_fighter January 31 2023, 15:04:06 UTC

Я с этим тэгом провозился час. Редактор ЖЖ превратился в сраное говно, в новой версии просто невозможно писать html-тэги, нет такой возможности больше. Как ты с этим борешься?

Reply

vladicusmagnus January 31 2023, 15:12:31 UTC

Открываешь "НАПИСАТЬ" - и там в пулл дауне лежит "использовать старый редактор". Кликаешь, и радуешься что это говно не надо пользовать. Но вскоре боюсь посты придется писать чисто в семаджике, потому как старые варианты ёбанная жижа отрубает через годик.


... )

Reply

drew_fighter January 31 2023, 15:24:53 UTC
О, спасибо!
Это же какой-то позор, делали бы что-то хорошее, но нет - они превращают ЖЖ в какой-то твиттер.

Reply


arush_damage January 31 2023, 22:57:52 UTC

Эмммм, а нахера оно по нынешним временам вообще надо - сжатие?

Только если всякий лосслесс архивировать.

mp3 и h.265 один хер ужать не получится, а тексты жать смысла нет - объемы не те.

А для лослесс аудио надо специализированные алгоритмы разрабатывать.

ЗЫ. Емнип что рар, что 7з давно умеют что в ppm что в lzma. И смысл свою реализацию пилить?

Reply

Ты совершенно прав drew_fighter February 1 2023, 10:00:33 UTC
Практической пользы от этого занятия не много.
Я занимаюсь этими алгоритмами из тяги к искусству :)

Reply

Re: Ты совершенно прав arush_damage February 1 2023, 12:29:03 UTC
Ну только если...

А вот такой тогда вопрос: может имеет смысл перевести данные в троичную сс и сжимать троичное представление данных?
Будет оно лучше сжиматься или хуже?
Будет ли вообще разница?
И если будет то в пользу какой системы? И насколько большая?

Reply

Re: Ты совершенно прав drew_fighter February 1 2023, 13:51:24 UTC
Теоретически - нет, разницы в степени сжатия не будет.
На практике, двоичная система по целому ряду причин удобнее.
В том числе, она учитывает особенности представления данных - кодировки символов, формат вещественных чисел, так что позволяет учесть информацию, которая потеряется при переводе в троичную систему.

Так что, нет, троичная система для современных форматов данных не представляет бонусов.

Reply


m_krokodilov March 27 2023, 13:13:52 UTC
vladicusmagnus производит впечатление человека душевнобольного.

Прямо полный набор - и общение словестной окрошкой, где отсутствуют связи между предложениями, и аргументация непонятными намёками со ссылками на ему одному известные вещи, и убеждённость в собственной экспертизе во всех вопросах при незнании элементарных вещей, и идеи-фикс, к которым постоянно всё сводится (какой-то бред про средневековые государства, зловредных русских, великий void*, спившихся соседей по подъезду, которых он переодически находит в кустах и специальные операции специальных спецслужб).

Не удивлюсь, если окажется, что он состоит на учёте в дурке и периодически бегает вокруг дома без трусов, чтобы сбить с толка вражескую разведку.

Reply

drew_fighter March 27 2023, 19:13:05 UTC
Это вы ещё с его жж-френдами не общались. Вот там настоящий паноптикум.

Вы просто поделились впечатлением, или что-то предлагаете?

Reply

m_krokodilov March 27 2023, 19:23:12 UTC
Предлагаю относиться к его болтовне с разумной опаской. Вполне возможно, что те чудо-алгоритмы и приёмы, на которые он ссылается, существуют только в его воображении.

Reply


Leave a comment

Up