我有一个测量设备,它可以将数据记录在this folder中的.dat文件中,例如raw_data.dat,它们都具有相同的结构,并且我希望能够将文件中的最后一个表提取到熊猫数据中框架。
该文件有几个表,我不确定这里的列表结构是否是.dat文件的标准格式,但是我尝试将文本粘贴到excel中,并且将文本识别为单独的表,因此可能将结构正确读入python的标准方法。我找不到一个,所以我尝试了一种真正令人费解的方法,将.dat文件读取为字符串,然后手动切掉文件的顶部并将其余部分另存为.dat文件。我的希望是,然后能够以某种方式将结果另存为.csv或.xls,但我仍然找不到任何方法。此外,在导入后,表格将转换为\ t,并且不会返回已保存文件中的表格。我的代码如下
mylines = []
with open ('raw_file.dat', 'rt') as myfile:
for myline in myfile:
mylines.append(myline)
string = (mylines[8:])
with open("updated.dat", "w") as output:
output.write(str(string))
我必须承认我是python的新手,我不确定我是否正确使用了这些函数。不过,我希望有比解决方案更直接的方法。
答案 0 :(得分:0)
如果可以确定想要的第三张表从第8行开始,那么除了从第8行开始对文件建立索引之外,没有其他理由使您变得更加复杂。从那里,您可以使用字符串操作和列表理解来清理数据:
import pandas as pd
# Read the data.
with open('raw_data.dat', 'r') as fh:
lines = fh.readlines()[8:]
# Remove newlines, tabs, and split each string separated by spaces.
clean = [line.strip.replace('\t', '').split() for line in lines]
# Feed the data into a DataFrame.
data = pd.DataFrame(clean[1:], columns=clean[0])
输出:
Time Variab1e1 ... v18 v19
0 +0.00000000e+000 +3.04142181e-002 ... +0.00000000e+000 +0.00000000e+000
1 +1.00000000e+000 +1.96144191e-001 ... +1.00000000e+000 +0.00000000e+000
2 +2.00000000e+000 +3.75599731e-001 ... +2.00000000e+000 +0.00000000e+000
如果要将值转换为浮点数,可以在将数据转换为DataFrame之前执行以下操作:
headers = clean[0]
rows = [[float(value) for value in row] for row in clean[1:]]
data = pd.DataFrame(rows, columns=headers)
这为您提供了更加整洁的框架:
Time Variab1e1 Variable2 Variable3 Variable4 ... v15 v16 v17 v18 v19
0 0.0 0.030414 0.0 1.383808 0.0 ... 0.0 0.0 15.0 0.0 0.0
1 1.0 0.196144 1.0 7.660262 1.0 ... 0.0 1.0 15.0 1.0 0.0
2 2.0 0.375600 2.0 15.356726 2.0 ... 0.0 2.0 15.0 2.0 0.0