我有80个表格格式的文本文件(列和行)。每个文件都有一个ID列,其中一些可能相同。我想简单地写一个新文件,该文件应该有一个由id列组成的标题,然后是1到80列,其中每列代表将从每个文件中获取的一些数据。一旦读取了每个文件,它将获取其id并将其放在新文件id列中,然后从每个文件中获取5columnsX4rows(20个单元格),然后将其放在属于文件标记列的列中。对于files的其余列,标签将具有NA,如下所示:
1cvs id仅出现在文件1中。列1行x12的单元格应该有 5columnsX4rows。 头
输入文件如下所示: 例如,文件1看起来像:
id readsfw readsrv .......
1cvs 1 3
2jsh 4 6
输出文件如下:
id 1 2 3 4 5 6 7 8 .....
1cvs NA NA NA NA NA NA NA ..
2jsh
shd
.
.
我读取多个文件的方式如下:
def Read(pathname):
with open(pathname,'r') as f:
reader=csv.reader((f),delimiter='\t')
for i,row in enumerate(reader):
# How to work the code to do the writing as described above
try:
folder_input = raw_input()
except Name_Error:
pass
for root,dirs,files in os.walk(folder_input):
for file in files:
if file.endswith(".tsv"):
pathname=os.path.join(root,file)
Read(pathname)
我怎么能用python做到这一点?