我有一个固定宽度的文件,格式如下:
5678223313570888271712000000024XAXX0101010006461801325345088800.0784001501.25abc@yahoo.com
5678223324686600271712000000070XAXX0101010006461801325390998280.0784001501.25abcde.12345@gmail.com 5678123422992299
这是我尝试过的:
import pandas as pd
ColSpecs = [(0,16),(16,31),(31,44),(44,62),(62,70),(70,73),(73,77),(77,127),(127,143)]
df = pd.read_fwf("~/filename.txt",colspecs=ColSpecs,Header=True)
现在,这无疑可以帮助我将熊猫格式转换为干净格式。但是,空白(或固定的空白)被修剪掉了。例如:电子邮件字段(#8)固定设置了50个字符。将它们导入Pandas数据框后,它们会被截断。
对于数据处理,我正在创建3个新字段,这些字段是从先前导入的字段的值中提取的。
最终输出文件结构:
[(0,16),(16,31),(31,44),(44,62),(62,70),(70,73),(73,77),(77,127), (127,143),(143,153),(153,163),(164,165)]
因为,我没有在数据帧上找到任何to_fwf方法,也没有找到任何其他替代方法-> Flat File(保持原始长度不变),如果有人有更好的解决方案,我将不胜感激。
P.S。 :我读到awk / sed在Unix上工作得更好,但仍然想知道Python