我正在尝试从Wikipedia dump构建一个大型文本语料库。
我将每篇文章表示为文档对象,包括:
- 原文:字符串
- 预处理文本:元组列表,其中每个元组包含一个(词干)单词以及单词在原始文本中的位置
- 一些其他信息,如标题和作者
我正在寻找一种将这些对象保存到磁盘的有效方法。应该可以进行以下操作:
添加对象后无需删除它。
我可以想象以下方法:
- 将每篇文章序列化为单独的文件,例如使用pickle:这里的缺点可能是许多操作系统调用
- 将所有文档存储到单个xml文件或将文档块存储到多个xml文件中:以xml格式存储代表预处理文档的列表会占用大量开销,我认为它很慢从xml
中读取一个列表
- 使用现有的软件包存储语料库:我找到了Corpora软件包,它看起来非常快速有效,但它只支持存储字符串和包含元数据的标头。简单地将预处理文本放入标题会使其运行得非常慢。
这样做的好方法是什么?也许是为此目的的包裹,直到现在我还没有找到?