我试着了解术语的相关性度量。
因此我找到了以下练习:
哪个字词与术语create function fn_Cyrillic2Latin (@string nvarchar(max))
returns nvarchar(max) as
begin
set @string = replace (@string, N'ый' ,N'y')
set @string = replace (@string, N'ЫЙ' ,N'Y')
set @string = replace (@string, N'а' ,N'a')
set @string = replace (@string, N'б' ,N'b')
set @string = replace (@string, N'в' ,N'v')
set @string = replace (@string, N'г' ,N'g')
set @string = replace (@string, N'д' ,N'd')
set @string = replace (@string, N'е' ,N'e')
set @string = replace (@string, N'ё' ,N'yo')
set @string = replace (@string, N'ж' ,N'zh')
set @string = replace (@string, N'з' ,N'z')
set @string = replace (@string, N'и' ,N'i')
set @string = replace (@string, N'й' ,N'y')
set @string = replace (@string, N'к' ,N'k')
set @string = replace (@string, N'л' ,N'l')
set @string = replace (@string, N'м' ,N'm')
set @string = replace (@string, N'н' ,N'n')
set @string = replace (@string, N'о' ,N'o')
set @string = replace (@string, N'п' ,N'p')
set @string = replace (@string, N'р' ,N'r')
set @string = replace (@string, N'с' ,N's')
set @string = replace (@string, N'т' ,N't')
set @string = replace (@string, N'у' ,N'u')
set @string = replace (@string, N'ф' ,N'f')
set @string = replace (@string, N'х' ,N'kh')
set @string = replace (@string, N'ц' ,N'c')
set @string = replace (@string, N'ч' ,N'ch')
set @string = replace (@string, N'ш' ,N'sh')
set @string = replace (@string, N'щ' ,N'shch')
set @string = replace (@string, N'ъ' ,N' ')
set @string = replace (@string, N'ы' ,N'y')
set @string = replace (@string, N'ь' ,N'')
set @string = replace (@string, N'э' ,N'e')
set @string = replace (@string, N'ю' ,N'yu')
set @string = replace (@string, N'я' ,N'ya')
set @string = replace (@string, N'А' ,N'A')
set @string = replace (@string, N'Б' ,N'B')
set @string = replace (@string, N'В' ,N'V')
set @string = replace (@string, N'Г' ,N'G')
set @string = replace (@string, N'Д' ,N'D')
set @string = replace (@string, N'Е' ,N'E')
set @string = replace (@string, N'Ё' ,N'YO')
set @string = replace (@string, N'Ж' ,N'ZH')
set @string = replace (@string, N'З' ,N'Z')
set @string = replace (@string, N'И' ,N'I')
set @string = replace (@string, N'Й' ,N'Y')
set @string = replace (@string, N'К' ,N'K')
set @string = replace (@string, N'Л' ,N'L')
set @string = replace (@string, N'М' ,N'M')
set @string = replace (@string, N'Н' ,N'N')
set @string = replace (@string, N'О' ,N'O')
set @string = replace (@string, N'П' ,N'P')
set @string = replace (@string, N'Р' ,N'R')
set @string = replace (@string, N'С' ,N'S')
set @string = replace (@string, N'Т' ,N'T')
set @string = replace (@string, N'У' ,N'U')
set @string = replace (@string, N'Ф' ,N'F')
set @string = replace (@string, N'Х' ,N'KH')
set @string = replace (@string, N'Ц' ,N'C')
set @string = replace (@string, N'Ч' ,N'CH')
set @string = replace (@string, N'Ш' ,N'SH')
set @string = replace (@string, N'Щ' ,N'SHCH')
set @string = replace (@string, N'Ъ' ,N'')
set @string = replace (@string, N'Ы' ,N'Y')
set @string = replace (@string, N'Ь' ,N'')
set @string = replace (@string, N'Э' ,N'E')
set @string = replace (@string, N'Ю' ,N'YU')
set @string = replace (@string, N'Я' ,N'YA')
return @String
end
:pool
或duck
更相关/相关?使用皮尔逊相关,骰子相关,互信息和预期的互信息。
我提供了以下信息(每个文件中该术语的计数):
fish
要获得告知算法的分数,我基本上需要4个措施:
Term | D1 | D2
pool | 0 | 23
duck | 23 | 10
fish | 4 | 8
你能给我一个简单的例子来说明如何获得术语池和鸭子的相似性吗?我已经搜索了网络和stackoverflow,但是没有找到文档级别的例子,仅提供了这几个信息。
我已经尝试过以下措施,但这并不是每个术语的绝对出现,这看起来并不正确:
Frequency Term A
Frequency Term B
Number of docments
Frequency Term A and Term B
我也尝试了以下措施,但后来我不知道如何计算合并频率:
Frequency Term pool: 1 (occurse in 1 document)
Frequency Term duck: 2 (occurse in 2 document)
Number of docments: 2
Frequency Term pool and Term duck: 1 (occure together only in 1 document)
我本来期望在练习中获得更多信息。也许有人可以帮助我如何通过这些信息获得结果?