Python:Pandas,处理间隔列名

时间:2016-10-18 22:22:16

标签: python python-3.x pandas text

如果我有多个文本文件,我需要解析它看起来像这样,但可以在列名称和上面的主题标签的长度方面有所不同:txt.file

我如何将其变成熊猫数据框?我尝试过使用pd.read_table('file.txt', delim_whitespace = True, skiprows = 14),但它有各种各样的问题。我的问题是......

顶部的所有文本,星号和磅都需要忽略,但我不能只使用跳过行,因为顶部所有垃圾的大小在另一个文件中的长度可能不同。

列" stat(+/-)"和"系统(+/-)"因空白而被视为4列。

列名称中包含一磅符号,我不想要这样。我不能手动分配列名,因为它们因文本文件而异。

任何帮助都很有帮助,我在使用pandas阅读文件后,确实不确定从哪里开始。

1 个答案:

答案 0 :(得分:1)

这是我在评论中提到的方式:它使用文件对象来跳过您在开始时需要跳过的自定义脏数据。您将文件偏移量放在文件中const mi_Container::index<IndexByIdString>::type& index = container.get<IndexByIdString>(); for ( mi_Container::index<IndexByIdString>::type::iterat‌​or it = index.begin(), end = index.end(); it != end; ++it ) { operate_on(*it); } 完成工作的适当位置:

read_fwf