我要在网站的许多页面上抓取一些数据,这些数据将放入列表中作为值的字典,即
data = {'A':[1,2,3], 'B':['a','b','c'], 'C': [1.0, 2.0, 3.0]}
每页将为每个列表添加一个项目,因此在4页之后,字典将如下所示:
data = {'A':[1,2,3,4], 'B':['a','b','c','d'], 'C': [1.0, 2.0, 3.0, 4.0]}
我知道在爬网每个页面时有几种方法可以构建数据,但是我只是想知道什么是最好的容器? 请记住,我将在抓取完成时将数据写入.csv文件。
我目前的想法是建立字典并使用DictWriter()
或加载到熊猫数据框中并使用to_csv()
是否有更好的容器来提高性能?
答案 0 :(得分:0)
我发现将数据加载到字典中,然后将其转换为Pandas数据框,使写入csv变得更加容易。
我发现这更容易概念化我在做什么。