计算英文字母之间的距离

时间:2015-11-30 18:44:08

标签: cluster-analysis data-mining hci

我试图根据它们之间的距离(相似性/不相似性)来聚类英文字母。有没有人对配方有所帮助?

我已经搜索过,而且我所看到的大部分内容都是中文,泰文或韩文字母。

字母之间的相似性/相异性基于字母的形状。例如,' M'和' W'是相似的,' O'和' Q'也是类似的。但是,字母' E'和' S'是不一样的,' P'和' C'也是不一样的。

2 个答案:

答案 0 :(得分:0)

您可以将其中一个字符视为中心,并使用所有字符的ASCII值查找字符之间的距离。通过考虑恒定的阈值,您可以对英文字母的字符进行聚类。

例如,A = 65 C = 67且K = 75的ASCII值 假设阈值为5,即如果字符之间的差异小于5,则该字符进入一组。

并假设居中的字符是B = 66

字符之间的距离是 B-A = 66-65 = 1

C-B = 67-66 = 1

K-B = 75-66 = 9

因此,字符A和C进入一个组,字符K进入另一个组。

答案 1 :(得分:0)

在我看来,您正在寻找将任意一对字母映射到距离分数的功能,其中距离代表视觉上的差异。有很多可能的这样的功能。

可能是,采用字形,计算图像中暗/亮位的比例,并使用它来得出图像之间的相异度得分。这将是一个更简单的计算,你可以从你的评论中寻找各种面向方面的算法。

这只是您可以做的一个简单示例。但即使是相对简单的人类大脑图像处理(例如,如你所描述的那样寻找角落等),编程也会非常复杂。

真的,这完全取决于你认为的意思相似。也就是说,在你能够建立你想要的东西之前,你必须清楚自己想要什么。