标签: web-scraping web-crawler screen-scraping html-content-extraction
所以我的应用程序需要来自给定URL的可见内容,例如文本部分,没有html没有页眉或页脚数据。截至目前,我正在使用beautifulsoup和boilerpipe获取相同内容。但在极少数情况下,我没有获得足够的数据或正确的数据。所以有人想知道是否有其他竞争对手,编程语言不是障碍。
答案 0 :(得分:1)
我会直接推荐xpath或css提取器进行内容提取,这两个选择器都已在parsel模块上实现。
xpath
css
parsel
对于一整套网络抓取+内容提取器,scrapy将是我的首选选项。
scrapy
如果您想要提取以直观地选择要提取的html的哪些部分,我建议portia。
portia
希望有所帮助。