我需要识别页面中的内容 - 这样做http://www.alchemyapi.com/api/text/(我需要获取HTML,因此我无法使用此API)
我可以用什么逻辑来实现这个目标? (编码语言没关系)
这里我所做的(效果很好) - 需要更多修复......
答案 0 :(得分:3)
寻找the Boilerpipe library。这是一个全面的解决方案。
使用Boilerpipe库,您可以将输出指定为HTML。因此,您仍然可以保留其HTML标记,从而获得主要内容(文章)。
答案 1 :(得分:2)
另一个好的选择是使用Goose。
它允许比Boilerpipe(标题,内容)更多的字段(发布日期,作者,文章中的主要图像和更多内容)
答案 2 :(得分:0)
你需要一个解析器来导航DOM,在NuGet包中你可以找到一些有用的解析器工具,比如this