我正在尝试将数据从网站刮到数据库,该表应该包含重复数据,我需要将一行拆分成多个表来维护正常的表格。
数据是这样的,
[department, professor, student, marks, subject]
很自然地,部门和教授会重复许多[学生,分数,科目]。为了使数据标准化,我需要做到,
[sr. no., department, professor] and [dept.sr.no (reference), student, marks, subject]
如何通过scrapy实现这一目标?超级分级表会有帮助吗?
答案 0 :(得分:0)
为每个表创建项目,然后在管道中使用isinstance确定Item对象。
def process_item(self, item, spider):
if isinstance(item, DepartmentItem):
return self.store_department(item, spider)
elif isinstance(item, ProfessorItem):
return self.store_professor(item, spider)