在Python

时间:2015-07-23 13:27:14

标签: python nlp corpus

我正在尝试从Wikipedia dump构建一个大型文本语料库。 我将每篇文章表示为文档对象,包括:

  • 原文:字符串
  • 预处理文本:元组列表,其中每个元组包含一个(词干)单词以及单词在原始文本中的位置
  • 一些其他信息,如标题和作者

我正在寻找一种将这些对象保存到磁盘的有效方法。应该可以进行以下操作:

  • 添加新文档
  • 通过ID
  • 访问文档
  • 遍历所有文件

添加对象后无需删除它。

我可以想象以下方法:

  • 将每篇文章序列化为单独的文件,例如使用pickle:这里的缺点可能是许多操作系统调用
  • 将所有文档存储到单个xml文件或将文档块存储到多个xml文件中:以xml格式存储代表预处理文档的列表会占用大量开销,我认为它很慢从xml
  • 中读取一个列表
  • 使用现有的软件包存储语料库:我找到了Corpora软件包,它看起来非常快速有效,但它只支持存储字符串和包含元数据的标头。简单地将预处理文本放入标题会使其运行得非常慢。

这样做的好方法是什么?也许是为此目的的包裹,直到现在我还没有找到?

0 个答案:

没有答案