Scrapy-如何检查发布的新博客帖子?

时间:2015-10-02 06:43:15

标签: python python-2.7 web-scraping scrapy scrapy-spider

Scrapy是一个非常有趣的框架。 我现在有几个问题:

1)在earlier question中,我想出了如何使用scrapy提取所有博客帖子,但解决方案中存在一个小故障。你看,博客文章通常有一个网址“继续阅读”,点击后会显示完整的帖子。那么如何提取完整的帖子?..这是my code

2)如何使用scrapy对蜘蛛进行编码以检查新的博客文章?

3)如何清理提取的数据?我认为一种方法是在scrapy的蜘蛛类中导入正则表达式库。但是当我尝试抓取时,我得到一个导入错误,找不到正则表达式模块?那么这是否意味着我无法在蜘蛛中进行数据清理?我有没有为它写一个单独的课程?

有什么建议吗?

0 个答案:

没有答案