(警告:我是蟒蛇语言的新手)
索引文件的最pythonic方式是什么,我的脚本会返回单词,然后是单词出现的所有行?
以下是我将在脚本中使用的示例文本。
这是最好的时期, 这是最糟糕的时期, 这是智慧的时代, 这是愚蠢的时代, 这是信仰的时代, 这是令人怀疑的时代, 那是光明的季节, 这是黑暗的季节, 这是希望的春天, 这是绝望的冬天, 我们面前有一切, 我们面前什么都没有, 我们都直奔天堂, 我们都是直接相反的 - 简而言之,这个时期到目前为止,就像现在一样 它最吵闹的当局坚持要求它被收到,无论是为了好还是为了 邪恶,仅在最高级别的比较中。
答案 0 :(得分:0)
收藏模块是这个问题的朋友。我会使用defaultdict,使用文本中的单词作为键,值将是单词出现的行号。
from collections import defaultdict
d = defaultdict(list)
for index, line in enumerate(txt.splitlines()):
for word in line:
word_strip = word.strip(',.!?')
d[word_strip].append(index)
我假设文本包含在变量txt中,您也希望摆脱各种标点字符。