Question

启用deltafetch后，scrapy仍会抓取以前抓取过的网址。

系统是RHEL 6.5

[root@hostname ~]# python -V
Python 2.6.6

我已经通过pip安装了deltafetch：

[root@hostname ~]# pip search scrapy
Scrapy                    - A high-level Python Screen Scraping framework
  INSTALLED: 0.18.4
  LATEST:    0.22.2

[root@hostname ~]# pip search scrapylib
scrapylib                 - Scrapy helper functions and processors
  INSTALLED: 1.1.3 (latest)

/usr/lib/python2.6/site-packages/scrapylib/deltafetch.py

我已经配置了我的settings.py：

SPIDER_MIDDLEWARES = {
    'scrapylib.deltafetch.DeltaFetch': 100,
}

DELTAFETCH_ENABLED = True
DOTSCRAPY_ENABLED = True

当我运行蜘蛛时，DeltaFetch似乎已启用：

2014-06-20 10:58:00-0400 [scrapy] DEBUG: Enabled spider middlewares: HttpErrorMiddleware,
DeltaFetch, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware

创建.scrapy目录：

[user@hostname output]$ ls -al ../.scrapy
total 12
drwxrwxr-x. 3 user user 4096 Jun 20 10:58 .
drwxrwxr-x. 6 user user 4096 Jun 20 10:58 ..
drwxrwxr-x. 2 user user 4096 Jun 20 10:58 deltafetch

正在创建db文件：

[user@hostname output]$ ls -al ../.scrapy/deltafetch/
total 16
drwxrwxr-x. 2 user user  4096 Jun 20 10:58 .
drwxrwxr-x. 3 user user  4096 Jun 20 10:58 ..
-rw-rw-r--. 1 user user 12288 Jun 20 10:58 spider.db

[user@hostname deltafetch]$ file spider.db 
spider.db: Berkeley DB (Hash, version 9, native byte-order)
[user@hostname deltafetch]$

但.db文件似乎没有状态数据：

[user@hostname deltafetch]$ python
Python 2.6.6 (r266:84292, Nov 21 2013, 10:50:32) 
[GCC 4.4.7 20120313 (Red Hat 4.4.7-4)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import bsddb
>>> for k, v in bsddb.hashopen("spider.db").iteritems(): print k, v
... 
>>> 

[user@hostname deltafetch]$ db_dump spider.db 
VERSION=3
format=bytevalue
type=hash
db_pagesize=4096
HEADER=END
DATA=END

当我再次运行蜘蛛时，所有相同的网址都被抓取/抓取，即使抓取中有新项目，状态数据库似乎也没有得到更新，例如。这是以前提取的文件：

2014-06-20 11:13:56-0400 [spider] DEBUG: Crawled (200)
<GET http://www.example.com/xxx/xxx/xxx/xxx/xxx.xml>
(referer: None)

我不仅可以从日志中看到文件仍在被抓取，而且我从抓取中创建的.xml文件也会再次创建。

我查看了其他相关的deltafetch问题，他们没有解决这个问题，任何帮助都表示赞赏。

Answer 1

解决。

这是由于我认为可能是scrapy中的错误，或者可能只是一个功能。

我的蜘蛛只是抓取一个网络目录，接收响应正文并将其写入文件：

    def parse_funstuff(self, response):
        filename = response.url.split("/")[-1]
        open(filename, 'wb').write(response.body)

就scrapy / deltafetch而言，这并不是在刮擦任何东西。我注意到我在日志中看到了“GET”请求，但没有看到“Scraped from”。

我通过向蜘蛛添加一个项来解决这个问题，以包含我从我正在下载的xml文件中提取的任意字段。 Scrapy现在填充该项，将其写入output.xml文件，下载所有目标xml，并且deltafetch按预期工作。

我怀疑如果我将xml文件下载为项目然后将其写入文件，我就不会遇到这个问题。一旦我能弄清楚如何做到这一点（python和scrapy都不是我的专业领域）并测试它然后我可以删除我目前正在使用任意提取物填充的项目。

scrapy deltafetch配置不起作用

1 个答案: