Когда-то я знал на память все краски спектра.

Mar 29, 2011 11:42

Не нужно парсить [X]HTML регулярными выражениями. Даже если очень хочется - не нужно. Запишу на память ответ со stackoverflow почему нет.

I think the flaw here is that HTML is a Chomsky Type 2 grammar (context free grammar) and RegEx is a Chomsky Type 3 grammar (regular expression). Since a Type 2 grammar is fundamentally more complex than a ( Read more... )

ИТ

Leave a comment

Comments 3

vitus_wagner March 29 2011, 06:26:36 UTC
Далеко не всегда задачей парсинга является полный грамматический разбор.
Например, есть довольно удачная реализация парсера HTML на Tcl, которая регулярными выражениями преобразует HTML в код на Tcl (который тоже type 2).

Reply

uemoe March 29 2011, 07:08:43 UTC
Это я прекрасно понимаю. Что если задача выкусить из текста чего-нибудь, то решать ее нужно на том, на чем тебе кажется, ты это сделаешь максимально быстро - хочешь регулярные выражения - пожалуйста.
Этот совет для следующей задачи - а давай мы в нашу выкусывалку добавим еще такой хитрый случай, вот тут сразу нужно одуматься и взять уже готовый парсер.

Reply

vitus_wagner March 29 2011, 08:04:35 UTC
Задача может ставиться совсем другая, как в приведенном мной примере.

Reply


Leave a comment

Up