Question

如果我有多个文本文件，我需要解析它看起来像这样，但可以在列名称和上面的主题标签的长度方面有所不同： txt.file

我如何将其变成熊猫数据框？我尝试过使用pd.read_table('file.txt', delim_whitespace = True, skiprows = 14)，但它有各种各样的问题。我的问题是......

顶部的所有文本，星号和磅都需要忽略，但我不能只使用跳过行，因为顶部所有垃圾的大小在另一个文件中的长度可能不同。

列＆＃34; stat（+/-）＆＃34;和＆＃34;系统（+/-）＆＃34;因空白而被视为4列。

列名称中包含一磅符号，我不想要这样。我不能手动分配列名，因为它们因文本文件而异。

任何帮助都很有帮助，我在使用pandas阅读文件后，确实不确定从哪里开始。

Answer 1

这是我在评论中提到的方式：它使用文件对象来跳过您在开始时需要跳过的自定义脏数据。您将文件偏移量放在文件中const mi_Container::index<IndexByIdString>::type& index = container.get<IndexByIdString>(); for ( mi_Container::index<IndexByIdString>::type::iterat‌or it = index.begin(), end = index.end(); it != end; ++it ) { operate_on(*it); }完成工作的适当位置：

read_fwf

Python：Pandas，处理间隔列名

1 个答案: