Вот уже как 32 года UTF-8 с нами

Sep 02, 2024 12:36

Формат UTF-8 был разработан Кеном Томпсоном и Робом Пайком к 2 сентября 1992 года, и выпущен в наш подлунный мир в ОС Plan 9. Что крайне любопытно, это было раньше чем даже было принято решение о строительстве МКС, и спустя годс появления юникода.

software history

Leave a comment

Comments 32

lj_frank_bot September 2 2024, 09:38:04 UTC
Здравствуйте!
Система категоризации Живого Журнала посчитала, что вашу запись можно отнести к категориям: История, Космос.
Если вы считаете, что система ошиблась - напишите об этом в ответе на этот комментарий. Ваша обратная связь поможет сделать систему точнее.
Фрэнк,
команда ЖЖ.

Reply

1500py470 September 2 2024, 09:59:55 UTC
Компьютеры! Где Компьютеры?! Где АйТи?!

Reply


eddy_em September 2 2024, 10:02:45 UTC
Ужасная кодировка. Хуже невозможно придумать, в мир сошел с ума, и этот бред практически стандартизовали. Вместо, скажем, куда как более удачной UTF32.
Сам пользуюсь КОИ8-Р. Пока мир не опомнится, и не введет вменяемый стандарт.

Reply

ardelfi September 2 2024, 10:15:09 UTC
Не опомнится. Это же практически мем: "а давайте заменим n старых фишек одной новой, так чтобы всё исправить, и на все деньги, и навсегда!!!111". В результате появляется n+1 фишек. Достаточно взглянуть на языки погромирования - 99% их быть не должно, но они есть. Про стандарты графики, звука, текста, чертежей, и даже таких затратных вещей как DVD-диски, лучше даже не вспоминать. Вот был pdf - ультимативная для своей задачи фишка. Нет, давайте djvu, потому что это не pdf. Теперь перебесились с djvu, осталась гора отсканированных в djvu старых книг с ужасным сжатием и прочим криминалом.

Это ошибка в ДНК, так оно и останется.

Reply

eddy_em September 2 2024, 12:24:21 UTC
У djvu был какой-то интересный метод сжатия, ориентированный на сканы, а pdf так не умеет. Но, конечно, круче, когда у отсканированной книги текстовый слой распознан - но уж больно много работы на это надо.
Кстати, вот смотрел на конференции: что-то уж очень много среди молодежи развелось тех, кто презентации в убогом "поверпойнте" вместо бимера делает, а некоторые так вообще плакаты в каком-то подобие "ворда" рисовали вместо латеха! Похоже, молодежь у нас с каждым поколением все более и более конченая получается. Вон, в 80-х выпускники "программерских" специальностей реально программистами были, а сейчас - мышкодрочеры сплошные, которые вообще ни одного вменяемого ЯП не знают и думают, что на пыхпыхе сайтики в "жумле" клепать - это программирование.

Reply

ardelfi September 2 2024, 14:19:29 UTC
Да, сэкономили место на винтах, ужав книги в хлам, а теперь терабайтов куча, а книги уже пожаты в хлам и никто их заново сканировать не станет. Ладно бы текст нераспознан, но если скан хороший, его и через 50 лет распознать можно. А если скан ужат в однобитный формат, нормально распознать уже не получится, только с вычиткой, и то без гарантий.

С презентациями поезд давно ушёл. Да и с программированием тоже. Я помню лет 30 назад случился очередной дискетный вирус, и весь универ перезаражался. Один из наших написал антивирус за выходные, и раздал желающим - это ассемблер, умение программировать и знание системы. А нынешнее племя не может окно текстовое нарисовать без приключений, чтобы оно не тормозило на суперконтупере.

Reply


v_pychick September 2 2024, 11:24:15 UTC
кросивое.

Reply

tydymbydym September 2 2024, 11:58:09 UTC

Согласен. А старичье, похоже, в маразме начало забывать, что биты и такты в самом начале 90-х вообще-то сильно денег стоили, чтобы 32 вместо 8 использовать. Один так и вообще маразмом хвастается, что до сих пор на кривой КОИ8-Р сидит.

Reply

alexadmin September 2 2024, 14:03:46 UTC
Ну утф-8 это как раз из категории "давайте выкроим несколько бит" с безумной расплатой тактами...

Reply

1500py470 September 2 2024, 14:11:34 UTC
RADIX-50 покруче впихивали три знака в 16 бит за счёт математики

Reply


spamsink September 2 2024, 15:54:09 UTC

Удивительно, что это пришлось после появления юникода придумывать отдельно задним числом.

Тривиальная мысль, что никто не захочет увеличивать все файлы вдвое (или вчетверо), если в них содержится хоть один символ с диакритикой, первоначальных изобретателей юникода не посещала.

Reply

eddy_em September 2 2024, 17:03:46 UTC
UTF32 значительно более вменяем, чем UTF8: если уж человек - какой-нибудь китаец или прочий басурманин, то есть ему не хватает стандартной 8-битной кодировки, чтобы всю галиматью своего ублюдочного недоязыка впихнуть, то единственный его вариант как раз 32-битный хрюникод. Ведь только в этом случае абсолютно любой символ (даже латинница) кодируется четырьмя байтами. Т.е., получая на входе строку в 4·N байт, ты абсолютно точно будешь уверен, что там N символов. А не как в выблядском UTF8, где, не проанализировав до конца весь буфер, ты никак не поймешь, сколько у тебя там символов (аналогично, ограничивая количество символов M, ты не сможешь понять, сколько тебе байт нужно выделить, и будешь выделять по-максимуму, хоть он и будет от силы на половину заполнен обычно). Вспоминается проблема с длинными именами файлов и путей у любителей хрюникода ☺

Reply

spamsink September 2 2024, 17:41:55 UTC

Ведь только в этом случае абсолютно любой символ (даже латинница) кодируется четырьмя байтами.

И хранить это безумие на внешнем носителе никому не хотелось: во-первых, представление, не требующее зависимости от нетривиальных алгоритмов сжатия, должно быть эффективным; во-вторых, собственно, даже gzip-а тогда ещё не было.

Reply

eddy_em September 2 2024, 17:52:28 UTC
Проблемы всяких китайцев волнуют лишь всяких китайцев. Однозначно. Человеку с нормальной письменностью более 8 бит нафиг не нужно в кодировке! Ну и документы с большим количеством разнообразных письменностей, которые нельзя в одну 8-битную свести, можно в случае чего UTF-32 кодировать. Хотя, в латехе можно придумать и свой патчик, чтобы свести N разных 8-битных кодировок в один документ (если, конечно, не захочется какому-то извращенцу в одном предложении уйму разноязычных слов объединить).

Reply


klapaucy September 3 2024, 04:01:44 UTC
Странно, мне казалось он старше, из 80-х...

Reply

1500py470 September 3 2024, 04:13:55 UTC
юникод из 90-х

Reply


Leave a comment

Up