我正在为我的一个项目使用scrapy。数据从spider抓取并传递到管道以插入数据库。这是我的数据库类代码:
df = df.unstack().swaplevel()
print(df)
0 Product 1 1
1 Product 1 2
0 Product 2 3
1 Product 2 4
0 Product 3 1
1 Product 3 1
这是我的管道代码,它处理已删除的项目并保存到MySQL数据库中。
import MySQLdb
class Database:
host = 'localhost'
user = 'root'
password = 'test123'
db = 'scraping_db'
def __init__(self):
self.connection = MySQLdb.connect(self.host, self.user, self.password, self.db,use_unicode=True, charset="utf8")
self.cursor = self.connection.cursor()
def insert(self, query,params):
try:
self.cursor.execute(query,params)
self.connection.commit()
except Exception as ex:
self.connection.rollback()
def __del__(self):
self.connection.close()
从上面的流程我感觉每当通过管道处理Item时,就会在process_item完成时打开和关闭数据库连接。这会打开太多的数据库连接。我想要一种方式,我的数据库连接只在蜘蛛的整个生命周期中打开一次,在蜘蛛关闭时关闭。
我读到Spider类中有open_spider和close_spider方法,如果我使用它们,那么如何将对Spider的start_requests方法的数据库连接的引用传递给管道类?
还有更好的方法吗?
答案 0 :(得分:2)
class MySpider(scrapy.Spider):
name = "myspidername"
host = 'localhost'
user = 'root'
password = 'test123'
db = 'scraping_db'
def __init__(self):
self.connection = MySQLdb.connect(self.host, self.user, self.password, self.db,use_unicode=True, charset="utf8")
self.cursor = self.connection.cursor()
def insert(self, query,params):
try:
self.cursor.execute(query,params)
self.connection.commit()
except Exception as ex:
self.connection.rollback()
def __del__(self):
self.connection.close()
然后在您的管道中执行此操作spider.cursor
以访问cursor
并执行任何MySQL操作。
class LinkPipeline(object):
def process_item(self, item, spider):
query="""INSERT INTO links (title, location,company_name,posted_date,status,company_id,scraped_link,content,detail_link,job_id) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s,%s)"""
params=(item['title'], item['location'], item['company_name'], item['posted_date'], item['status'], item['company_id'], item['scraped_link'], item['content'], item['detail_link'],item['job_id'])
spider.cursor.insert(query,params)
return item