Scrapy是一个非常有趣的框架。 我现在有几个问题:
1)在earlier question中,我想出了如何使用scrapy提取所有博客帖子,但解决方案中存在一个小故障。你看,博客文章通常有一个网址“继续阅读”,点击后会显示完整的帖子。那么如何提取完整的帖子?..这是my code
2)如何使用scrapy对蜘蛛进行编码以检查新的博客文章?
3)如何清理提取的数据?我认为一种方法是在scrapy的蜘蛛类中导入正则表达式库。但是当我尝试抓取时,我得到一个导入错误,找不到正则表达式模块?那么这是否意味着我无法在蜘蛛中进行数据清理?我有没有为它写一个单独的课程?
有什么建议吗?