我正在进行基于文本处理和挖掘的研究。原则很简单,我们收集特定日期内的所有帖子,例如“2011Jan01”。我们不关心哪个客户发布该内容,我们只关注他发布它的时间。例如,在“2011Jan01”日期,这里有五个客户在我们的论坛中发布了一些关于产品的想法,我们删除了有关客户的信息并将他们的帖子内容合并在一起。
但是,我们有一个大型论坛,因此我们可能有数千人活跃,每天发布长线程或短线程。如果我们结合它们。一天会有一万甚至几十万行。
我们希望使用像MySQL这样的数据库来构建一个表来保存,然后再对它进行数据挖掘。我们对该表的第一个想法非常简单:
表格
Date combinedPostContents
2011Jan01 "blablalbla everything from clients, lot of contents"
这个简单合理吗?或者我们应该使用本地文本文件来保存内容并在收集日期之前命名文本文件?哪个更好?
提前多谢,大师!! :)
答案 0 :(得分:1)
数据挖掘文本信息以获得客户对产品的想法将非常困难。你肯定想要使用一个数据库,你真的应该为他们正在审查的产品做一些评级系统。