如果我有多个文本文件,我需要解析它看起来像这样,但可以在列名称和上面的主题标签的长度方面有所不同:
我如何将其变成熊猫数据框?我尝试过使用pd.read_table('file.txt', delim_whitespace = True, skiprows = 14)
,但它有各种各样的问题。我的问题是......
顶部的所有文本,星号和磅都需要忽略,但我不能只使用跳过行,因为顶部所有垃圾的大小在另一个文件中的长度可能不同。
列" stat(+/-)"和"系统(+/-)"因空白而被视为4列。
列名称中包含一磅符号,我不想要这样。我不能手动分配列名,因为它们因文本文件而异。
任何帮助都很有帮助,我在使用pandas阅读文件后,确实不确定从哪里开始。
答案 0 :(得分:1)
这是我在评论中提到的方式:它使用文件对象来跳过您在开始时需要跳过的自定义脏数据。您将文件偏移量放在文件中const mi_Container::index<IndexByIdString>::type& index = container.get<IndexByIdString>();
for (
mi_Container::index<IndexByIdString>::type::iterator it = index.begin(), end = index.end();
it != end;
++it
)
{
operate_on(*it);
}
完成工作的适当位置:
read_fwf