应用错误收集

我想提一下我的小项目，如果我正在进行中。我需要使用Medline的所有文章（http://www.nlm.nih.gov/bsd/licensee/2011_stats/baseline_doc.html）。对于那些不熟悉Medline数据库的人，我添加了一些信息：

我想处理这些记录并获取诸如title，abstract等信息。然后我想用python和mongodb索引这些文件（或记录）。我有一个选择：

我创建了一个medline解析器，并为每个记录创建了一个mongoDB的JSON条目，并在通过pubmedID索引之后。然后我可以创建一个函数，如get_abstract（'pubmedID'）：string。

我的问题是：

这是个好主意吗？（XML解析 - ＆gt; JSON - ＆gt;插入和索引！）

有用吗？ JSON往往比XML小，这可能是一个很好的改变。

我可以使用GridFS并获取每个文件记录的块等价物吗？怎么样？

GridFS通常用于存储图像或视频等静态文件。 MongoDB可以支持非常大的文档（ 16MB ==几个小说）。 medline文章的文本可能比这要小得多。

如果您只是计划存储文本，那么您不需要任何GridFS。如果您想存储图像，那么GridFS对此非常有用。

请阅读GridFS here。请注意，GridFS只是一个规范。一切仍然存储在常规的MongoDB集合中。

PS：看起来pubmedID是一个唯一的密钥。创建文档时，可以使用_id覆盖pubmedID来节省空间。

即： collection.insert({"_id": xml_obj.pubmedID, "text" : xml_obj.article_text})