Question

假设您有一个格式如下的输入：

id____value1____value2...valueN
1____hello____world...something
2________goodnight...world

4 '_'应该是'/t'

到目前为止，我得到的结论是：第一项有{ID:1, value1:hello, value2:world,...,valueN:something}而第二项有{ID:2, value1: , value2:goodnight, ... , valueN: world} 我希望第二个项目的最终代表是：{ID:2, value1:n/a , value2:goodnight, ... , valueN: world}

我已经用Python编写了一个脚本来逐行读取文件，但是我希望能够检查'/t'是否后跟另一个'/t'，然后插入{{1价值。

到目前为止，我的代码是：

'n/a'

Answer 1

根据您在一天结束时使用列表的方式，您还可以使用csv模块，以便在有多列可能出现的情况下更灵活一些没有条目;

import csv

with open(file, 'r') as f:
    reader = csv.reader(f, delimiter='\t')
    header = next(reader)
    list = [[x if x else 'n/a' for x in line] for line in reader]

现在list将是一个列表列表，每个列表都包含实际项目。

In [11]: print(header)
['id', 'value1', 'value2', 'value3']

In [12]: print(list)
[['1', 'hello', 'world', 'something'], ['2', 'n/a', 'goodnight', 'world']]

在以下评论之后添加了

修改：

对上述方法稍作修改（使用Python 2.7+字典理解）将为您提供字典;

import csv

with open(file, 'r') as f:
    reader = csv.reader(f, delimiter='\t')
    header = next(reader)
    list = [{header[i]: line[i] if line[i] else 'n/a' for i in range(len(header))} for line in reader]

print(list)
# [{'value1': 'hello', 'value3': 'something', 'id': '1', 'value2': 'world'}, {'value1': 'n/a', 'value3': 'world', 'id': '2', 'value2': 'goodnight'}]

你问这是否更干净，这可能在很大程度上取决于你打算如何使用结果。如果您决定检查结果，字典方法会为您提供更容易阅读的内容。

如果您需要在文件上执行大量数据修改，您可能会对pandas DataFrame数据结构感兴趣，这种数据结构是针对此类内容生成的。如果你不是那种情况，那么这种方法可能只是完全矫枉过正。一些关于它的功能的简单示例（请注意，默认情况下它会处理您原来的'n/a'问题）：

In [1]: import pandas as pd

In [5]: df = pd.read_csv('testfile', delimiter='\t')  # Or whatever your file is called

In [6]: df = df.set_index('id')

In [7]: df
Out[7]:
   value1     value2     value3
id
1   hello      world  something
2     NaN  goodnight      world

In [8]: df[df['value3'] == 'something']  # Find all rows with a given value3
Out[8]:
   value1 value2     value3
id
1   hello  world  something

In [10]: df[df['value2'] == 'goodnight']  # Find all rows with a given value2
Out[10]:
   value1     value2 value3
id
2     NaN  goodnight  world

In [11]: df['value1']  # Show only value1
Out[11]:
id
1    hello
2      NaN
Name: value1, dtype: object

基本上你可以提出的任何桌面操作在pandas中都有一种自然的方法。

Answer 2

为什么不replace？

for line in f:
     line.replace('\t\t','n/a')

如果有两个相邻的\t值，则会改为使用'n / a'。正如@DeepSpace指出的那样，f实际上并没有改变，所以你必须在你的列表中添加一行或者做一些事情来跟踪你的结果。

替换输入Python的缺失值

2 个答案: