Варианты парсинга HTML?

В мире .NET я рекомендую div HTML Agility Pack. Не так webpage просто, как некоторые из webpagescraping вышеперечисленных вариантов html (например, HTMLSQL), но очень div-layouts гибко. Он позволяет манипулировать span плохо сформированным HTML, как web-scraping если бы это был хорошо сформированный webpagescraping XML, поэтому вы можете использовать html5 XPATH или просто выполнять htmlparser итерацию по узлам.

http://www.codeplex.com/htmlagilitypack

html

web-scraping

html-parsing

html-content-extraction

2022-10-01T22:12:27+00:00