我有一些.NET代码可以提取HTML文件并从中提取文本。我正在使用HtmlAgilityPack
进行提取。在我想要提取那里的大部分文本之前,所以它工作正常。现在需求已经改变,我只需要从文档的主体中提取文本。所以假设我从新闻网页上抓取了HTML。我只想要文章的内容,而不是广告,其他相关文章的标题,页眉/页脚等。
可以修改我对HtmlAgilityPack
的调用以仅提取主文本吗?或者有另一种方法来进行提取吗?
以下是从HTML获取文本的当前代码块:
using HtmlAgilityPack;
public string ConvertHtml(string html)
{
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
StringWriter sw = new StringWriter();
ConvertTo(doc.DocumentNode, sw);
sw.Flush();
return sw.ToString();
}
public void ConvertTo(HtmlNode node, TextWriter outText)
{
string html;
switch (node.NodeType)
{
case HtmlNodeType.Comment:
// don't output comments
break;
case HtmlNodeType.Document:
ConvertContentTo(node, outText);
break;
case HtmlNodeType.Text:
// script and style must not be output
string parentName = node.ParentNode.Name;
if ((parentName == "script") || (parentName == "style"))
break;
// get text
html = ((HtmlTextNode) node).Text;
// is it in fact a special closing node output as text?
if (HtmlNode.IsOverlappedClosingElement(html))
break;
// check the text is meaningful and not a bunch of whitespaces
if (html.Trim().Length > 0)
{
outText.Write(HtmlEntity.DeEntitize(html));
}
break;
case HtmlNodeType.Element:
switch (node.Name)
{
case "p":
// treat paragraphs as crlf
outText.Write("\r\n");
break;
}
if (node.HasChildNodes)
{
ConvertContentTo(node, outText);
}
break;
}
}
private void ConvertContentTo(HtmlNode node, TextWriter outText)
{
foreach (HtmlNode subnode in node.ChildNodes)
{
ConvertTo(subnode, outText);
}
}
所以,理想情况下,我想要的是让HtmlAgilityPack
确定输入HTML的哪些部分构成“主”文本块并仅输入这些元素。我不知道输入HTML的结构是什么,但我知道它会有很大的变化(在更多静态之前)