熊猫中的固定宽度文件操作

时间:2018-10-18 21:00:19

标签: python pandas dataframe fixed-width

我有一个固定宽度的文件,格式如下:

5678223313570888271712000000024XAXX0101010006461801325345088800.0784001501.25abc@yahoo.com                                        
5678223324686600271712000000070XAXX0101010006461801325390998280.0784001501.25abcde.12345@gmail.com                             5678123422992299

这是我尝试过的:

import pandas as pd

ColSpecs = [(0,16),(16,31),(31,44),(44,62),(62,70),(70,73),(73,77),(77,127),(127,143)]

df = pd.read_fwf("~/filename.txt",colspecs=ColSpecs,Header=True)

现在,这无疑可以帮助我将熊猫格式转换为干净格式。但是,空白(或固定的空白)被修剪掉了。例如:电子邮件字段(#8)固定设置了50个字符。将它们导入Pandas数据框后,它们会被截断。

对于数据处理,我正在创建3个新字段,这些字段是从先前导入的字段的值中提取的。

最终输出文件结构:

[(0,16),(16,31),(31,44),(44,62),(62,70),(70,73),(73,77),(77,127), (127,143),(143,153),(153,163),(164,165)]

因为,我没有在数据帧上找到任何to_fwf方法,也没有找到任何其他替代方法-> Flat File(保持原始长度不变),如果有人有更好的解决方案,我将不胜感激。

P.S。 :我读到awk / sed在Unix上工作得更好,但仍然想知道Python

0 个答案:

没有答案