假设我在一段时间内有一个对话的文本记录。 1小时。我想知道在彼此密切接近的情况下会发生什么样的话。我将使用什么类型的统计技术来确定哪些词汇聚集在一起以及它们彼此之间的接近程度如何?
我怀疑某种聚类分析或PCA。
答案 0 :(得分:4)
要确定单词接近度,您必须构建一个图表:
所以“我喜欢狗”会有2条边和3个顶点。
现在,下一步将根据此模型决定您对“关闭”的定义是什么。
这是统计数据的来源。
确定相关词的“群组”
MCL群集 - 这将为您提供许多群集,这些群集在算法上具有很高的可能性。
K MEANS群集 - 这将为您提供“k”组词。
阈值处理 - 这是最可靠,最直观的方法。绘制您理解的一小部分数据的所有关系(例如,您阅读的新闻剪辑或文章中的段落)并运行您的方法生成图形,并使用graphviz或cytoscape等工具可视化图形。一旦您可以看到相关性,您就可以计算出明显聚集在一起的不同单词之间通常会找到多少条边。例如,您可能会发现,聚集在一起的两个单词将为每5个实例设置一个边。使用它作为截止值并编写您自己的图形分析脚本,该脚本输出的字对在顶点图形中每5个字实例至少有1个边。