我有一个庞大的论坛数据库。我需要从数据库中提取语料库以用于NLP目的。提取步骤有参数(例如FTS查询),我想在文件系统中使用参数元数据保存语料库。
一些语料库将大到几十兆字节。使用元数据保存文件的最佳方法是什么,这样我就可以在不加载整个文件的情况下读取元数据。
我正在使用以下可能相关的技术:PyQt,Postgres,Python,NLTK。
一些注意事项:
我想我可以将元数据挑选成字符串,并让文件的第一行代表元数据。这似乎是我认为最简单的方式。也就是说,如果pickle格式是ASCII安全的。
答案 0 :(得分:2)
在NLTK的术语中,“语料库”是整个集合,可以包含多个文件。听起来你可以将每个论坛会话(你称之为“语料库”)存储到一个单独的文件中,使用允许您在文件开头存储元数据的结构化格式。
NLTK通常使用XML来达到此目的,但是不难推出自己的语料库读取器,读取文件头然后推迟到PlainTextCorpusReader
,或者最适合您文件格式的标准读取器。如果您使用XML,则还必须扩展XMLCorpusReader
并提供方法sents()
,words()
等。
答案 1 :(得分:0)
为什么不在语料库文件中添加JSON标头? 或者任何其他类型的结构化格式......我现在可以想到Jekyll帖子中的YAML front matter。