Как лучше всего анализировать html в С#?

Вы можете использовать TidyNet.Tidy c# для преобразования HTML в dot-net XHTML, а затем использовать dot-net синтаксический анализатор .net XML.

Другой альтернативой dotnet может быть использование dot-net встроенного движка mshtml:

using mshtml;
...
object[] oPageText = { html };
HTMLDocument doc = new HTMLDocumentClass();
IHTMLDocument2 doc2 = (IHTMLDocument2)doc;
doc2.write(oPageText);

Это html5 позволяет вам использовать webpage функции, подобные JavaScript, такие .net-framework как getElementById()

c#

.net

html

parsing

html-content-extraction

2022-10-24T21:36:28+00:00