应用错误收集

在Python

时间：2015-07-23 13:27:14

标签： python nlp corpus

我正在尝试从Wikipedia dump构建一个大型文本语料库。我将每篇文章表示为文档对象，包括：

原文：字符串
预处理文本：元组列表，其中每个元组包含一个（词干）单词以及单词在原始文本中的位置
一些其他信息，如标题和作者

我正在寻找一种将这些对象保存到磁盘的有效方法。应该可以进行以下操作：

添加新文档
通过ID
遍历所有文件

添加对象后无需删除它。

我可以想象以下方法：

将每篇文章序列化为单独的文件，例如使用pickle：这里的缺点可能是许多操作系统调用
将所有文档存储到单个xml文件或将文档块存储到多个xml文件中：以xml格式存储代表预处理文档的列表会占用大量开销，我认为它很慢从xml
使用现有的软件包存储语料库：我找到了Corpora软件包，它看起来非常快速有效，但它只支持存储字符串和包含元数据的标头。简单地将预处理文本放入标题会使其运行得非常慢。

这样做的好方法是什么？也许是为此目的的包裹，直到现在我还没有找到？

0 个答案:

没有答案