我正在基于this论文在Java中实现可读性公式。
我达到了必须计算两个或更多单词的概念和关系相似性的程度。
他们说:
我们使用潜在语义分析(LSA)工具来计算单词 相似。 LSA可以导出语义信息,包括相似性, 来自文字共现矩阵。单词/术语共现 被计算在一个固定大小的移动窗口中,扫描整个窗口 语料库。使用+ -1和+ -4的窗口大小的共现模型 被视为关系相似性和概念语义模型, 分别
我试图看到一些LSA的实现,比如this one,但是找不到一种直接的方式来获得我想要的东西。
我认为需要有一个基于单词的矩阵,所以我尝试使用WS4J库来计算基于两个字符串数组的矩阵。
WS4J也有calcRelatednessOfWords()
方法,但结果与文章中显示的结果不匹配。
有没有提供我想要的图书馆?或者任何人都可以指出我正确的方向?