文件结构不一致的Pandas中的read_csv

时间:2018-07-09 17:49:21

标签: python pandas opencsv

在将csv文件读取到行尾不标准的pandas数据框中时遇到麻烦。

这是我的代码:

df_feb = pd.read_csv(data_location, sep = ",",nrows = 500, header = None, skipinitialspace = True,encoding = 'utf-8')

以下是输出(删除了个人信息): Output

这是输入数据的样子: Data

上面的输出将应该是一行的内容分成4行。每个电话号码都应以新行开头(电话号码=划痕位)。 我的目标是使每一行看起来像这样: Goal output

提前感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

如果文件的格式具有任何规则(不是每个记录的唯一格式),那么建议您编写自己的转换工具

在这里,我建议该工具应该做什么

  • 以纯文本格式读取文件。
  • 将4行放入1个记录/类对象中(如我在图片中所看到的,4条记录似乎有4行)
  • 解析行(用逗号,制表符分隔,无论您拥有什么)以获取属性
  • 在另一个文件中写入属性,按制表符(或逗号)=>您的csv

现在,您可以将csv加载到Pandas。