我最近使用Python编写了一个Web搜寻器。该搜寻器主要用于搜寻一些新闻站点。
我已经从165个不同的网站上收集了超过20,000个关于特定主题的新闻URL。
我想提取每个页面的正文内容(文本)。但是它们的风格不同。
如果通过xpath
路径一对一地匹配它们,则将是巨大的工作量。
有没有一般的方法可以实现我的目标?
答案 0 :(得分:0)
经过几个小时的探索和测试,我发现几乎不可能依靠单个库来完成此操作。
正如@bruno desthuilliers所述,每个网页的确切路径是唯一100%完美的解决方案。
在测试期间,我使用了python库
和网络API
用goose3,news3k,boilerpipe提取的内容是相似的,完全是文本。
我提取的内容是中文文本。