Question

（警告：我是蟒蛇语言的新手）

索引文件的最pythonic方式是什么，我的脚本会返回单词，然后是单词出现的所有行？

以下是我将在脚本中使用的示例文本。

这是最好的时期，这是最糟糕的时期，这是智慧的时代，这是愚蠢的时代，这是信仰的时代，这是令人怀疑的时代，那是光明的季节，这是黑暗的季节，这是希望的春天，这是绝望的冬天，我们面前有一切，我们面前什么都没有，我们都直奔天堂，我们都是直接相反的 - 简而言之，这个时期到目前为止，就像现在一样它最吵闹的当局坚持要求它被收到，无论是为了好还是为了邪恶，仅在最高级别的比较中。

Answer 1

收藏模块是这个问题的朋友。我会使用defaultdict，使用文本中的单词作为键，值将是单词出现的行号。

from collections import defaultdict

d = defaultdict(list)

for index, line in enumerate(txt.splitlines()):
    for word in line:
        word_strip = word.strip(',.!?')
        d[word_strip].append(index)

我假设文本包含在变量txt中，您也希望摆脱各种标点字符。

什么是索引文件最pythoic的方式？

1 个答案: