Question

我正在尝试解析HTML页面（该页面并不常见且经常更改，但它们始终是新闻网站）。基本上，我需要从网站下载的一堆代码中提取新闻，我试图用这样的正则表达式来做：

Match m = Regex.Match(x.Result, @"<p>(.+?)</p>");

明显的坏主意 - 它会删除任何标记为段落的内容。

有什么更好的方式从网站上提取与代码分开的新闻文章或大量文字吗？

Answer 1

嗯，这可能不是你想要的（你没有提供很多细节），但你可以用一对简单的正则表达式从页面中删除所有标签。

删除javascript和CSS：

<(script|style).*?</\1>

删除标签

<.*?>

Credit goes to this existing answer.您将留下的是页面中的“纯文本”。