我正在使用beautifulsoup抓取一个网站,一半页面有常规数据,X#字段各有一个值,后半部分有Y#个字段,每个字段都有可变数量的值(很多次只有一个值) ,其他任何数量的值)。
困扰我的是如何将此数据写入具有一致列数的csv文件(这样每个列将始终与单个数据点相关...名称,地址,年龄 - 无论如何)。我正在使用csv库在我的脚本末尾编写一个csv,我通常只是调用各种列表及其值来以一致的方式填充我的csv。
writer.writerow([section_defendant[0], section_defendant[1], section_defendant[2], section_defendant[3], section_defendant[4], section_defendant[5], section_defendant[6], section_defendant[7], section_defendant[8], section_defendant[9], section_defendant[10], section_defendant[11], section_defendant[12], section_defendant[13], section_defendant[14], entry_tuple, section_sentence[0], section_sentence[1], section_sentence[2], section_sentence[3], section_sentence[4], bond[0], bond[1], bond[2], bond[3]])
我从具有可变条目数的字段中存储信息的方式是使用列表中的元组,因此我的变量entry_tuple通常如下所示:
entry_tuple = [(a, b, c, d), (e, f, g, h), (i, j, k, l)]
所以价值a,e和i都是相同的字段说 - "费用" - 和b,f和j都是相同的字段" date" - 这是与不同费用有关的日期。 。 。
我知道我可以使用两个for循环来获取我的元组列表中的信息,但变量entry_tuple在下一页可能如下所示:
entry_tuple2 = [(a, b, c, d), (e, f, g, h)]
如果我将所有这些值写入文件,我的CSV的第二行将比第一行少4列!
我正在考虑去R做这个项目的分析方面,但也考虑使用NumPy / Scipy或panda ...我只需要将这些数据写入一个文件然后我可以读回来在我的分析中......
我可以将元组打印到单列,然后在使用python或R作为我的stats工作台时将其解析回其他数据结构吗?在进行统计时,我应该使用什么数据结构将这些内容保存在内存中...我希望保持简单,只需要列进行频率分布,中位数设置等。