我有100 Gb的文件。我想对其进行描述并大致了解哪些主题很普遍。
文件是纯文本。
我曾考虑使用像谷歌桌面这样的工具进行搜索,但它太大了,无法真正猜测搜索要求的内容,而且执行足够的搜索以覆盖整个集合时耗时太长。
是否有任何免费提供的工具可以聚集大型文档数据集?
是否有任何此类工具可以显示此类群集?
答案 0 :(得分:0)
对于基本的NLP方法,您可以将每个文档表示为基于单词频率的向量,然后使用贝叶斯或其他方法(SVM,k-means等)对文档向量进行聚类。
有关相关答案,请参阅此somewhat similar SO question。
答案 1 :(得分:-1)
您需要研究进行自然语言处理的工具。基本上,您可以非常可靠地(使用统计工具)确定文档的语言(请参阅http://en.wikipedia.org/wiki/N-gram)和话语领域(请参阅http://en.wikipedia.org/wiki/Support_vector_machine)。如果你从维基百科开始,一些工具应该可用。