应用错误收集

是否存在从不同页面提取网页正文的通用方法？

时间：2019-07-15 07:34:44

标签： python web-crawler text-extraction

我最近使用Python编写了一个Web搜寻器。该搜寻器主要用于搜寻一些新闻站点。

我已经从165个不同的网站上收集了超过20,000个关于特定主题的新闻URL。

我想提取每个页面的正文内容（文本）。但是它们的风格不同。如果通过xpath路径一对一地匹配它们，则将是巨大的工作量。

有没有一般的方法可以实现我的目标？

1 个答案:

答案 0 :(得分：0)

经过几个小时的探索和测试，我发现几乎不可能依靠单个库来完成此操作。

正如@bruno desthuilliers所述，每个网页的确切路径是唯一100％完美的解决方案。

在测试期间，我使用了python库

goose3
newspaper3k
BeautifulSoup
html2text

和网络API

锅炉管

用goose3，news3k，boilerpipe提取的内容是相似的，完全是文本。
我提取的内容是中文文本。