应用错误收集

提供最佳可见内容提取器

时间：2017-01-02 10:12:42

标签： web-scraping web-crawler screen-scraping html-content-extraction

所以我的应用程序需要来自给定URL的可见内容，例如文本部分，没有html没有页眉或页脚数据。截至目前，我正在使用beautifulsoup和boilerpipe获取相同内容。但在极少数情况下，我没有获得足够的数据或正确的数据。所以有人想知道是否有其他竞争对手，编程语言不是障碍。

1 个答案:

答案 0 :(得分：1)

我会直接推荐xpath或css提取器进行内容提取，这两个选择器都已在parsel模块上实现。

对于一整套网络抓取+内容提取器，scrapy将是我的首选选项。

如果您想要提取以直观地选择要提取的html的哪些部分，我建议portia。

希望有所帮助。