索引维基百科制作图表的链接

时间:2013-04-21 14:59:43

标签: python xml algorithm memory graph

我下载了维基百科转储(this page上的第一个torrent)并试图通过将它们存储在python字典中来索引所有链接。我将链接存储为字典中的目的地列表,其中包含当前页面的键。但是当我处理转储时,我最终得到了一个MemoryError,所以我决定为每个页面分配一个整数ID。这让我走得更远,但我仍然得到了一个MemoryError。如果没有这个,我该怎么办呢?我宁愿将它全部存储在内存中。由于我的代码相当长,我发布了here

1 个答案:

答案 0 :(得分:1)

您应该开始查看数据库,以便为您的ID和相关链接编制索引。

首先,您可以尝试SqliteMySQL

这里是一个起点at python database handling.

我非常喜欢Postgresql与python模块psycopg2一起使用