为词频和文本分析设计数据库

时间:2013-10-16 08:03:17

标签: database database-design word analysis word-frequency

我有一堆文章,我想在其中进行词频和趋势分析。

文章标有日期,作者,主题和主题。我想使用这些标签来分割数据,以便我可以获得用于特定作者(或作者组),主题或主题的最常用单词。整体而且随着时间的推移(趋势)。

我如何设计这个数据库(关系或其他)或者我应该创建一个数据立方体?

1 个答案:

答案 0 :(得分:0)

Rizzoma.com用couchDB(noSQL)和Sphinx(全文搜索引擎)制作了这个。 如果需要,您可以尝试以其他方式创建它,或者测试现有解决方案并重复它。