Comments | uemoe: Когда-то я знал на память все краски спектра.

uemoe

Когда-то я знал на память все краски спектра.

Mar 29, 2011 11:42

Не нужно парсить [X]HTML регулярными выражениями. Даже если очень хочется - не нужно. Запишу на память ответ со stackoverflow почему нет.

I think the flaw here is that HTML is a Chomsky Type 2 grammar (context free grammar) and RegEx is a Chomsky Type 3 grammar (regular expression). Since a Type 2 grammar is fundamentally more complex than a ( Read more... )

ИТ

Comments 3

vitus_wagner March 29 2011, 06:26:36 UTC

Далеко не всегда задачей парсинга является полный грамматический разбор.
Например, есть довольно удачная реализация парсера HTML на Tcl, которая регулярными выражениями преобразует HTML в код на Tcl (который тоже type 2).

uemoe March 29 2011, 07:08:43 UTC

Это я прекрасно понимаю. Что если задача выкусить из текста чего-нибудь, то решать ее нужно на том, на чем тебе кажется, ты это сделаешь максимально быстро - хочешь регулярные выражения - пожалуйста.
Этот совет для следующей задачи - а давай мы в нашу выкусывалку добавим еще такой хитрый случай, вот тут сразу нужно одуматься и взять уже готовый парсер.

vitus_wagner March 29 2011, 08:04:35 UTC

Задача может ставиться совсем другая, как в приведенном мной примере.