用scrapy喂Rethinkdb

时间:2016-04-13 13:34:54

标签: python-2.7 scrapy rethinkdb rethinkdb-python scrapy-pipeline

我正在寻找一个简单的教程,解释如何从scrapy将项目写入Rethinkdb。可以在MongoDB here找到等价物。

1 个答案:

答案 0 :(得分:2)

这是“将项目写入MongoDB”行的翻译,用于RethinkDB。

一对夫妇注意到:

  • 我不确定crawler.settings的设置位置。
  • scrapy文档说process_item的第二个参数item可以是一个 对象或dict,因此可能需要进行.insert(dict(item))演员/转换。
import rethinkdb as r

class RethinkDBPipeline(object):

    table_name = 'scrapy_items'

    def __init__(self, rethinkdb_uri, rethinkdb_port, rethinkdb_db):
        self.rethinkdb_uri = rethinkdb_uri
        self.rethinkdb_port = rethinkdb_port
        self.rethinkdb_db = rethinkdb_db

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            rethinkdb_uri=crawler.settings.get('RETHINKDB_URI'),
            rethinkdb_db=crawler.settings.get('RETHINKDB_DATABASE', 'items')
        )

    def open_spider(self, spider):
        self.conn = r.connect(
            host = self.rethinkdb_uri, 
            port = self.rethinkdb_port,
            db = self.rethinkdb_db)

    def close_spider(self, spider):
        self.conn.close()

    def process_item(self, item, spider):
        r.table(self.table_name).insert(dict(item)).run(self.conn)
        return item