如何在聚类中包含日期时间和其他优先级信息?

时间:2013-05-23 05:36:09

标签: mahout

我想要群集文字。我有点理解从Mahout in Action中聚集纯文本内容的概念:

  1. 在输入中创建所有术语的映射(int - > term)并存储到词典中
  2. 将所有输入文档转换为规范化稀疏向量
  3. 进行群集
  4. 我希望对文本以及其他信息进行聚类,例如日期时间,地点,与之相关的人员。例如,我希望将对远处进行为期10天访问的文档放入不同的群集中。

    我知道我必须编写自己的工具来制作来自日期时间,位置,标签和(自然)文本的向量。我该如何处理?我应该使用内置工具来矢量化文本,然后将该输出集成到我自己的向量中吗?如何称量尺寸?

1 个答案:

答案 0 :(得分:1)

我无法向您提供完整的实施细节,因为我不确定,但我可以帮助您解决一个难题。您几乎肯定需要一些上下文分析来提取实体(例如位置,时间/日期,人名)

为此,请看一下OpenNLP。

http://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html

特别关注POS标记器和名称取名器。

一旦你提取出相关的实体,你就可以使用Mahout分类对它们做一些事情(一旦你提取了足够的实体来训练你的模型),但我不确定。

祝你好运