关联单词邻近度

时间:2011-10-23 01:11:11

标签: algorithm text statistics cluster-analysis

假设我在一段时间内有一个对话的文本记录。 1小时。我想知道在彼此密切接近的情况下会发生什么样的话。我将使用什么类型的统计技术来确定哪些词汇聚集在一起以及它们彼此之间的接近程度如何?

我怀疑某种聚类分析或PCA。

1 个答案:

答案 0 :(得分:4)

要确定单词接近度,您必须构建一个图表:

  1. 每个单词都是顶点(或“节点”)和
  2. 左右词是边
  3. 所以“我喜欢狗”会有2条边和3个顶点。

    现在,下一步将根据此模型决定您对“关闭”的定义是什么。

    这是统计数据的来源。

    确定相关词的“群组”

    1. MCL群集 - 这将为您提供许多群集,这些群集在算法上具有很高的可能性。

    2. K MEANS群集 - 这将为您提供“k”组词。

    3. 阈值处理 - 这是最可靠,最直观的方法。绘制您理解的一小部分数据的所有关系(例如,您阅读的新闻剪辑或文章中的段落)并运行您的方法生成图形,并使用graphviz或cytoscape等工具可视化图形。一旦您可以看到相关性,您就可以计算出明显聚集在一起的不同单词之间通常会找到多少条边。例如,您可能会发现,聚集在一起的两个单词将为每5个实例设置一个边。使用它作为截止值并编写您自己的图形分析脚本,该脚本输出的字对在顶点图形中每5个字实例至少有1个边。

      1. 通过ROC曲线评估3。您可以更高和更高地滴定此截止值,直到您拥有非常少的“簇”。然后,如果您针对具有已知预期结果的段落运行算法(由已知道哪些词应报告为相关的人创建),则可以使用比较相关词的接收器操作特性来评估算法的精度输出到预先计算的黄金标准。