假设您有一个格式如下的输入:
id____value1____value2...valueN
1____hello____world...something
2________goodnight...world
4 '_'
应该是'/t'
到目前为止,我得到的结论是:第一项有{ID:1, value1:hello, value2:world,...,valueN:something}
而第二项有{ID:2, value1: , value2:goodnight, ... , valueN: world}
我希望第二个项目的最终代表是:{ID:2, value1:n/a , value2:goodnight, ... , valueN: world}
我已经用Python编写了一个脚本来逐行读取文件,但是我希望能够检查'/t'
是否后跟另一个'/t'
,然后插入{{1价值。
到目前为止,我的代码是:
'n/a'
答案 0 :(得分:3)
根据您在一天结束时使用列表的方式,您还可以使用csv
模块,以便在有多列可能出现的情况下更灵活一些没有条目;
import csv
with open(file, 'r') as f:
reader = csv.reader(f, delimiter='\t')
header = next(reader)
list = [[x if x else 'n/a' for x in line] for line in reader]
现在list
将是一个列表列表,每个列表都包含实际项目。
In [11]: print(header)
['id', 'value1', 'value2', 'value3']
In [12]: print(list)
[['1', 'hello', 'world', 'something'], ['2', 'n/a', 'goodnight', 'world']]
在以下评论之后添加了修改:
对上述方法稍作修改(使用Python 2.7+字典理解)将为您提供字典;
import csv
with open(file, 'r') as f:
reader = csv.reader(f, delimiter='\t')
header = next(reader)
list = [{header[i]: line[i] if line[i] else 'n/a' for i in range(len(header))} for line in reader]
print(list)
# [{'value1': 'hello', 'value3': 'something', 'id': '1', 'value2': 'world'}, {'value1': 'n/a', 'value3': 'world', 'id': '2', 'value2': 'goodnight'}]
你问这是否更干净,这可能在很大程度上取决于你打算如何使用结果。如果您决定检查结果,字典方法会为您提供更容易阅读的内容。
如果您需要在文件上执行大量数据修改,您可能会对pandas
DataFrame
数据结构感兴趣,这种数据结构是针对此类内容生成的。如果你不是那种情况,那么这种方法可能只是完全矫枉过正。一些关于它的功能的简单示例(请注意,默认情况下它会处理您原来的'n/a'
问题):
In [1]: import pandas as pd
In [5]: df = pd.read_csv('testfile', delimiter='\t') # Or whatever your file is called
In [6]: df = df.set_index('id')
In [7]: df
Out[7]:
value1 value2 value3
id
1 hello world something
2 NaN goodnight world
In [8]: df[df['value3'] == 'something'] # Find all rows with a given value3
Out[8]:
value1 value2 value3
id
1 hello world something
In [10]: df[df['value2'] == 'goodnight'] # Find all rows with a given value2
Out[10]:
value1 value2 value3
id
2 NaN goodnight world
In [11]: df['value1'] # Show only value1
Out[11]:
id
1 hello
2 NaN
Name: value1, dtype: object
基本上你可以提出的任何桌面操作在pandas
中都有一种自然的方法。
答案 1 :(得分:1)
为什么不replace
?
for line in f:
line.replace('\t\t','n/a')
如果有两个相邻的\t
值,则会改为使用'n / a'。正如@DeepSpace指出的那样,f实际上并没有改变,所以你必须在你的列表中添加一行或者做一些事情来跟踪你的结果。