术语级别群集的最佳功能

时间:2015-08-07 20:00:06

标签: twitter cluster-analysis k-means text-mining feature-extraction

目前,我正在开发一个与挖掘Twitter数据相关的项目。该项目的目的是找到可用于表示推文集的主题。为了帮助我们找到主题,我们想出了一个术语级别聚类的想法。这些术语是使用某些TextMining工具提取的一些重要概念。 那么,我的主要问题是,定义术语相似性的最佳功能是什么?在这个项目中,由于数据量不足,我正在进行无监督学习,即使用k-means算法进行聚类。 我确实有一些提取的功能。据我了解,了解术语的语义(非实际)含义的一种方法是通过查看提及该术语的上下文。因此,我现在所拥有的是在该术语的WORD和POS之前和之后。例如:

I drink a cup of XYZ
She had a spoon of ABC yesterday.

通过查看前面的单词和POS - 杯/ NN和/ IN为XYZ和勺子/ NN和/ IN为ABC - 我知道XYZ和ABC可能是液体材料或组件。嗯,这听起来很幼稚,事实上,我没有得到好的集群。除了之前的功能,我还有一些我认为是功能的命名实体类型。例如,实体类型,如人物,位置,问题(在医疗中),MEDTERM等。

那么,术语级别聚类的常见功能是什么?任何意见和建议将不胜感激。我愿意接受任何指导,例如纸张,链接等。谢谢

编辑:除了这些功能之外,我还提取了每个术语的头部名词,并将其视为我的一项功能。我想在多字词术语中使用头名词。

1 个答案:

答案 0 :(得分:1)

好吧,让我看看我是否理解你需要什么。您已经提取/找到了您想要作为群集中心的术语,现在您想要找到与它们类似的所有术语,以便将它们分组到适当的群集中?

通常,您需要定义相似性度量(距离),这是主要点,您希望测量或确定的相似性距离。如果你正在寻找术语到术语的相似性,那么你可以尝试使用Levenshtein距离之类的字母,但是如果你想要找到的是上下文相似的术语,即使它们以非常不同的方式编写,但可能意味着同样的事情,那与Levenshtein不同的事情要难得多。

重要的是要记住,您需要一定程度的相似性才能找到相似的术语。我所看到你调用的是一些命名实体类型,通常k-means在处理非连续数据时很糟糕。