Крик души

Oct 09, 2012 21:00

К счастью не мой. Возникла довольно специфичная проблема с парсингом html регулярными выражениями ( Read more... )

Leave a comment

Comments 7

myem October 9 2012, 20:25:40 UTC
OMG, SOS, а мужики-то и я не знаем, парсим и парсим потихоньку хтмл-ный контент, да, регекспами, и тоннами перерабатываем :)))

Вобщем, рыдалЪ

Reply

golovashevich October 9 2012, 21:12:42 UTC
Этому ответу сто лет в субботу.

Поддержу предыдущего оратора: а мы-то и не знаем и продолжаем парсить (весьма успешно).

Reply

fotos October 9 2012, 21:31:45 UTC
Ну, то что полноценно html не парсится [только ] regex'ом - это как бы написано везде. Второй вопрос, что если регексы дополнить обвязкой на ЯВУ - типа условий, циклов и прочего - то проблема обходится. Ну или html подрезать, чтобы грамматику-то упростить. Ну то есть "на коленке" можно, конечно. Но тоннами-то зачем? Нормальных парсеров еще не изобрели? :)

Reply

myem October 10 2012, 08:23:21 UTC
Под специфические задачи временами проще написать свой специфический парсер с регекспами и прочим добром.

А вообще, да, знаю парочку с селекторами а-ля jQuery, не говоря уже о том, что валидный ХТМЛ какой-нибудь php успешно разберёт посредством какого-нибудь DOMXpath или simplexml и их комбинаций.

Reply


Leave a comment

Up