Ну, то что полноценно html не парсится [только ] regex'ом - это как бы написано везде. Второй вопрос, что если регексы дополнить обвязкой на ЯВУ - типа условий, циклов и прочего - то проблема обходится. Ну или html подрезать, чтобы грамматику-то упростить. Ну то есть "на коленке" можно, конечно. Но тоннами-то зачем? Нормальных парсеров еще не изобрели? :)
Под специфические задачи временами проще написать свой специфический парсер с регекспами и прочим добром.
А вообще, да, знаю парочку с селекторами а-ля jQuery, не говоря уже о том, что валидный ХТМЛ какой-нибудь php успешно разберёт посредством какого-нибудь DOMXpath или simplexml и их комбинаций.
Comments 7
Вобщем, рыдалЪ
Reply
Поддержу предыдущего оратора: а мы-то и не знаем и продолжаем парсить (весьма успешно).
Reply
Reply
А вообще, да, знаю парочку с селекторами а-ля jQuery, не говоря уже о том, что валидный ХТМЛ какой-нибудь php успешно разберёт посредством какого-нибудь DOMXpath или simplexml и их комбинаций.
Reply
Leave a comment