我想要群集文字。我有点理解从Mahout in Action中聚集纯文本内容的概念:
我希望对文本以及其他信息进行聚类,例如日期时间,地点,与之相关的人员。例如,我希望将对远处进行为期10天访问的文档放入不同的群集中。
我知道我必须编写自己的工具来制作来自日期时间,位置,标签和(自然)文本的向量。我该如何处理?我应该使用内置工具来矢量化文本,然后将该输出集成到我自己的向量中吗?如何称量尺寸?
答案 0 :(得分:1)
我无法向您提供完整的实施细节,因为我不确定,但我可以帮助您解决一个难题。您几乎肯定需要一些上下文分析来提取实体(例如位置,时间/日期,人名)
为此,请看一下OpenNLP。
http://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html
特别关注POS标记器和名称取名器。
一旦你提取出相关的实体,你就可以使用Mahout分类对它们做一些事情(一旦你提取了足够的实体来训练你的模型),但我不确定。
祝你好运