Не нужно парсить [X]HTML регулярными выражениями. Даже если очень хочется - не нужно. Запишу на память ответ со stackoverflow почему нет.
I think the flaw here is that HTML is a Chomsky Type 2 grammar (context free grammar) and RegEx is a Chomsky Type 3 grammar (regular expression). Since a Type 2 grammar is fundamentally more complex than a
(
Read more... )
Comments 3
Например, есть довольно удачная реализация парсера HTML на Tcl, которая регулярными выражениями преобразует HTML в код на Tcl (который тоже type 2).
Reply
Этот совет для следующей задачи - а давай мы в нашу выкусывалку добавим еще такой хитрый случай, вот тут сразу нужно одуматься и взять уже готовый парсер.
Reply
Reply
Leave a comment