Question

我正在使用beautifulsoup抓取一个网站，一半页面有常规数据，X＃字段各有一个值，后半部分有Y＃个字段，每个字段都有可变数量的值（很多次只有一个值），其他任何数量的值）。

困扰我的是如何将此数据写入具有一致列数的csv文件（这样每个列将始终与单个数据点相关...名称，地址，年龄 - 无论如何）。我正在使用csv库在我的脚本末尾编写一个csv，我通常只是调用各种列表及其值来以一致的方式填充我的csv。

writer.writerow([section_defendant[0], section_defendant[1], section_defendant[2], section_defendant[3], section_defendant[4], section_defendant[5], section_defendant[6], section_defendant[7], section_defendant[8], section_defendant[9], section_defendant[10], section_defendant[11], section_defendant[12], section_defendant[13], section_defendant[14], entry_tuple, section_sentence[0], section_sentence[1], section_sentence[2], section_sentence[3], section_sentence[4], bond[0], bond[1], bond[2], bond[3]])

我从具有可变条目数的字段中存储信息的方式是使用列表中的元组，因此我的变量entry_tuple通常如下所示：

entry_tuple = [(a, b, c, d), (e, f, g, h), (i, j, k, l)]

所以价值a，e和i都是相同的字段说 - ＆＃34;费用＆＃34; - 和b，f和j都是相同的字段＆＃34; date＆＃34; - 这是与不同费用有关的日期。。。

我知道我可以使用两个for循环来获取我的元组列表中的信息，但变量entry_tuple在下一页可能如下所示：

entry_tuple2 = [(a, b, c, d), (e, f, g, h)]

如果我将所有这些值写入文件，我的CSV的第二行将比第一行少4列！

我正在考虑去R做这个项目的分析方面，但也考虑使用NumPy / Scipy或panda ...我只需要将这些数据写入一个文件然后我可以读回来在我的分析中......

我可以将元组打印到单列，然后在使用python或R作为我的stats工作台时将其解析回其他数据结构吗？在进行统计时，我应该使用什么数据结构将这些内容保存在内存中...我希望保持简单，只需要列进行频率分布，中位数设置等。

将元组列表写入csv文件保持列一致

0 个答案: