提供最佳可见内容提取器

时间:2017-01-02 10:12:42

标签: web-scraping web-crawler screen-scraping html-content-extraction

所以我的应用程序需要来自给定URL的可见内容,例如文本部分,没有html没有页眉或页脚数据。截至目前,我正在使用beautifulsoupboilerpipe获取相同内容。但在极少数情况下,我没有获得足够的数据或正确的数据。所以有人想知道是否有其他竞争对手,编程语言不是障碍。

1 个答案:

答案 0 :(得分:1)

我会直接推荐xpathcss提取器进行内容提取,这两个选择器都已在parsel模块上实现。

对于一整套网络抓取+内容提取器,scrapy将是我的首选选项。

如果您想要提取以直观地选择要提取的html的哪些部分,我建议portia

希望有所帮助。