我有一个表格(制表符分隔的.txt文件),格式如下:
我的问题是如何导入和创建最后一列包含值列表的数据框?
-----问题1 ----
标题(第一行)是“较短的”,仅包含某些列的名称。第7位之后的所有值都没有标题(因为它应该是列表)。如果按原样导入文件,这似乎会使导入功能混乱
例如,如果我按以下方式导入
df = pd.read_table( path , sep="\t")
创建的DataFrame
仅具有与第一行中的元素一样多的列。而且,分配的数据值不匹配。
----问题2 -----
真正让我感到困惑的是,如果我在Excel中打开.txt并将其另存为制表符分隔(不进行任何更改),那么我也可以毫无问题地导入它,并且带有标题:没有标题的列只是给定一个“未命名的XYZ”标签。 为什么保存在Excel中会更改它?使用Note ++,我只能看到一个区别:原始的.txt格式为“ Unix(LF)”,而保存在Excel中的格式为“ Windows(CR LF)”。两者都是UTF-8,所以我不明白这将是一个问题吗?!?
尽管如此,我还是可以从这里操纵数据并尝试收集我希望的所有列,并将它们放入列表中。但是,我希望有一种更优雅,更快捷的方法。
这是.txt文件的屏幕截图
谢谢