Question

我有一个固定宽度的文件，格式如下：

5678223313570888271712000000024XAXX0101010006461801325345088800.0784001501.25abc@yahoo.com                                        
5678223324686600271712000000070XAXX0101010006461801325390998280.0784001501.25abcde.12345@gmail.com                             5678123422992299

这是我尝试过的：

import pandas as pd

ColSpecs = [(0,16),(16,31),(31,44),(44,62),(62,70),(70,73),(73,77),(77,127),(127,143)]

df = pd.read_fwf("~/filename.txt",colspecs=ColSpecs,Header=True)

现在，这无疑可以帮助我将熊猫格式转换为干净格式。但是，空白（或固定的空白）被修剪掉了。例如：电子邮件字段（＃8）固定设置了50个字符。将它们导入Pandas数据框后，它们会被截断。

对于数据处理，我正在创建3个新字段，这些字段是从先前导入的字段的值中提取的。

最终输出文件结构：

[（0,16），（16,31），（31,44），（44,62），（62,70），（70,73），（73,77），（77,127），（127,143），（143,153），（153,163），（164,165）]

因为，我没有在数据帧上找到任何to_fwf方法，也没有找到任何其他替代方法-> Flat File（保持原始长度不变），如果有人有更好的解决方案，我将不胜感激。

P.S。：我读到awk / sed在Unix上工作得更好，但仍然想知道Python

熊猫中的固定宽度文件操作

0 个答案: