我有一个文本文件,其中包含以下格式的数据;
100157 100157
100157 364207
100157 38848
100157 bradshaw97introduction
100157 bylund99coordinating
100157 dix01metaagent
100157 gray99finding
...
...
我正在尝试使用以下方法将其转换为 scikit可读数据集:
datafile = open(filename.txt, 'r')
data=[]
for row in datafile:
data.append(row.strip().split('\t'))
c1 = open(filename.csv, 'w')
arr = str(data)
c.write(arr)
c.close
然而,在执行此代码之后,数据以单行输出,而我打算以行和列的形式将csv格式的数据整齐地分开,就像Iris数据集一样。
我可以获得一些关于如何进行的帮助吗?感谢。
答案 0 :(得分:2)
使用csv
module:
import csv
with open('filename.txt', 'r') as f, open('filename.csv', 'w') as fout:
writer = csv.writer(fout)
writer.writerows(line.rstrip().split('\t') for line in f)
输出csv文件:
100157,100157
100157,364207
100157,38848
100157,bradshaw97introduction
100157,bylund99coordinating
100157,dix01metaagent
100157,gray99finding
...
答案 1 :(得分:0)
如果我错了,请纠正我,但我认为scikit readable dataset
只是以\n
分隔行的空格分隔值?
如果是这样,很容易:
假设你有这个文件:
100157 100157
100157 364207
100157 38848
100157 bradshaw97introduction
100157 bylund99coordinating
100157 dix01metaagent
100157 gray99finding
以标签分隔。
您可以轻松地将其转换为空格分隔的新行分隔值:
with open('/tmp/test.csv', 'r') as fin, open('/tmp/test.out', 'w') as fout:
data=[row.strip().split('\t') for row in fin]
st='\n'.join(' '.join(e) for e in data)
fout.write(st)
print data
# [['100157', '100157'], ['100157', '364207'], ['100157', '38848'], ['100157', 'bradshaw97introduction'], ['100157', 'bylund99coordinating'], ['100157', 'dix01metaagent'], ['100157', 'gray99finding']]
print st
100157 100157
100157 364207
100157 38848
100157 bradshaw97introduction
100157 bylund99coordinating
100157 dix01metaagent
100157 gray99finding