什么是索引文件最pythoic的方式?

时间:2014-04-22 11:36:29

标签: python indexing

(警告:我是蟒蛇语言的新手)

索引文件的最pythonic方式是什么,我的脚本会返回单词,然后是单词出现的所有行?

以下是我将在脚本中使用的示例文本。

这是最好的时期, 这是最糟糕的时期, 这是智慧的时代, 这是愚蠢的时代, 这是信仰的时代, 这是令人怀疑的时代, 那是光明的季节, 这是黑暗的季节, 这是希望的春天, 这是绝望的冬天, 我们面前有一切, 我们面前什么都没有, 我们都直奔天堂, 我们都是直接相反的 - 简而言之,这个时期到目前为止,就像现在一样 它最吵闹的当局坚持要求它被收到,无论是为了好还是为了 邪恶,仅在最高级别的比较中。

1 个答案:

答案 0 :(得分:0)

收藏模块是这个问题的朋友。我会使用defaultdict,使用文本中的单词作为键,值将是单词出现的行号。

from collections import defaultdict

d = defaultdict(list)

for index, line in enumerate(txt.splitlines()):
    for word in line:
        word_strip = word.strip(',.!?')
        d[word_strip].append(index)

我假设文本包含在变量txt中,您也希望摆脱各种标点字符。