是否存在从不同页面提取网页正文的通用方法?

时间:2019-07-15 07:34:44

标签: python web-crawler text-extraction

我最近使用Python编写了一个Web搜寻器。该搜寻器主要用于搜寻一些新闻站点。

我已经从165个不同的网站上收集了超过20,000个关于特定主题的新闻URL。

我想提取每个页面的正文内容(文本)。但是它们的风格不同。 如果通过xpath路径一对一地匹配它们,则将是巨大的工作量。

有没有一般的方法可以实现我的目标?

1 个答案:

答案 0 :(得分:0)

经过几个小时的探索和测试,我发现几乎不可能依靠单个库来完成此操作。

正如@bruno desthuilliers所述,每个网页的确切路径是唯一100%完美的解决方案。

在测试期间,我使用了python库

  • goose3
  • newspaper3k
  • BeautifulSoup
  • html2text

和网络API

  • 锅炉管

用goose3,news3k,boilerpipe提取的内容是相似的,完全是文本。
我提取的内容是中文文本。