我已经构建了一个摘要程序,它利用解析器一次从多个网站进行解析。我在每篇文章中只提取<p>
。
这会抛出许多与文章无关的随机内容。我见过几个能完美解析任何文章的人。我该怎么做?我正在使用美丽的汤
答案 0 :(得分:1)
您可能值得尝试像python-goose
这样的现有软件包,它可以满足您的要求,从网页中提取文章内容。
答案 1 :(得分:0)
您的解决方案实际上将特定于您要抓取的每个网站页面,因此,在不知道感兴趣的网站的情况下,我唯一真正建议的是检查您要抓取的每个页面的页面来源并查看文章是否包含在某个具有特定属性的html元素中(可以是唯一的类,id,甚至是summary属性),然后使用漂亮的汤来获取该元素的内部html文本