我有一个非常大的CSV文件,只包含两个字段(id,url)。我想用python对url字段做一些索引,我知道有一些像Whoosh或Pylucene这样的工具。但我无法让这些例子奏效。有人可以帮我这个吗?
答案 0 :(得分:1)
PyLucene很容易使用,但由于你还没有发布你的例子,我不确定你面临的问题。
或者当你只有key:value类型的数据时,可能比Pylucene更像DB Berkeley DB(python bindings pybsddb)。它会像python字典一样工作,应该比lucene更快或更快,你可以试试。
答案 1 :(得分:0)
file.csv内容:
a,b
d,f
g,h
将脚本全部加载到一个巨型字典中的Python脚本:
#Python 3.1
giant_dict = {id.strip(): url.strip() for id, url in (line.split(',') for line in open('file.csv', 'r'))}
print(giant_dict)
{'a': 'b', 'd': 'f', 'g': 'h'}