我已经开展了一个项目,它将从任何网页中提取主要内容。例如,如果我输入任何新闻文章的URL,它将仅返回文章部分。第一步是获取给定URL的源代码。有很多方法可以做到这一点。获取给定网页的HTML代码后,我会将部分保留在<body>
标记内,因为很明显文章会出现在正文内部。
在此之后,我选择每个div
元素并检查它包含多少文本。最后,我选择了div
,其中包含大部分文字。
我想的其他方式是,对于每个<p>
元素,我将检查它的父元素。最后,我将直接选择最多<p>
个孩子的div。要了解它,请查看此树Tree of an HTML
现在我知道这些方法是基本的,这也是我提出这个问题的原因。我想知道社区对此的建议。你们都使用什么方法?
答案 0 :(得分:0)
我喜欢实施自己的“新闻”抓取工具的想法......
一些建议:
古德勒克。