信息检索关联/关联的措施

时间:2018-01-04 15:49:58

标签: math information-retrieval pearson-correlation

我试着了解术语的相关性度量。

因此我找到了以下练习:
哪个字词与术语create function fn_Cyrillic2Latin (@string nvarchar(max)) returns nvarchar(max) as begin set @string = replace (@string, N'ый' ,N'y') set @string = replace (@string, N'ЫЙ' ,N'Y') set @string = replace (@string, N'а' ,N'a') set @string = replace (@string, N'б' ,N'b') set @string = replace (@string, N'в' ,N'v') set @string = replace (@string, N'г' ,N'g') set @string = replace (@string, N'д' ,N'd') set @string = replace (@string, N'е' ,N'e') set @string = replace (@string, N'ё' ,N'yo') set @string = replace (@string, N'ж' ,N'zh') set @string = replace (@string, N'з' ,N'z') set @string = replace (@string, N'и' ,N'i') set @string = replace (@string, N'й' ,N'y') set @string = replace (@string, N'к' ,N'k') set @string = replace (@string, N'л' ,N'l') set @string = replace (@string, N'м' ,N'm') set @string = replace (@string, N'н' ,N'n') set @string = replace (@string, N'о' ,N'o') set @string = replace (@string, N'п' ,N'p') set @string = replace (@string, N'р' ,N'r') set @string = replace (@string, N'с' ,N's') set @string = replace (@string, N'т' ,N't') set @string = replace (@string, N'у' ,N'u') set @string = replace (@string, N'ф' ,N'f') set @string = replace (@string, N'х' ,N'kh') set @string = replace (@string, N'ц' ,N'c') set @string = replace (@string, N'ч' ,N'ch') set @string = replace (@string, N'ш' ,N'sh') set @string = replace (@string, N'щ' ,N'shch') set @string = replace (@string, N'ъ' ,N' ') set @string = replace (@string, N'ы' ,N'y') set @string = replace (@string, N'ь' ,N'') set @string = replace (@string, N'э' ,N'e') set @string = replace (@string, N'ю' ,N'yu') set @string = replace (@string, N'я' ,N'ya') set @string = replace (@string, N'А' ,N'A') set @string = replace (@string, N'Б' ,N'B') set @string = replace (@string, N'В' ,N'V') set @string = replace (@string, N'Г' ,N'G') set @string = replace (@string, N'Д' ,N'D') set @string = replace (@string, N'Е' ,N'E') set @string = replace (@string, N'Ё' ,N'YO') set @string = replace (@string, N'Ж' ,N'ZH') set @string = replace (@string, N'З' ,N'Z') set @string = replace (@string, N'И' ,N'I') set @string = replace (@string, N'Й' ,N'Y') set @string = replace (@string, N'К' ,N'K') set @string = replace (@string, N'Л' ,N'L') set @string = replace (@string, N'М' ,N'M') set @string = replace (@string, N'Н' ,N'N') set @string = replace (@string, N'О' ,N'O') set @string = replace (@string, N'П' ,N'P') set @string = replace (@string, N'Р' ,N'R') set @string = replace (@string, N'С' ,N'S') set @string = replace (@string, N'Т' ,N'T') set @string = replace (@string, N'У' ,N'U') set @string = replace (@string, N'Ф' ,N'F') set @string = replace (@string, N'Х' ,N'KH') set @string = replace (@string, N'Ц' ,N'C') set @string = replace (@string, N'Ч' ,N'CH') set @string = replace (@string, N'Ш' ,N'SH') set @string = replace (@string, N'Щ' ,N'SHCH') set @string = replace (@string, N'Ъ' ,N'') set @string = replace (@string, N'Ы' ,N'Y') set @string = replace (@string, N'Ь' ,N'') set @string = replace (@string, N'Э' ,N'E') set @string = replace (@string, N'Ю' ,N'YU') set @string = replace (@string, N'Я' ,N'YA') return @String end poolduck更相关/相关?使用皮尔逊相关,骰子相关,互信息和预期的互信息。

我提供了以下信息(每个文件中该术语的计数):

fish

要获得告知算法的分数,我基本上需要4个措施:

Term | D1 | D2  
pool | 0 | 23  
duck | 23 | 10  
fish | 4 | 8  

你能给我一个简单的例子来说明如何获得术语池和鸭子的相似性吗?我已经搜索了网络和stackoverflow,但是没有找到文档级别的例子,仅提供了这几个信息。

我已经尝试过以下措施,但这并不是每个术语的绝对出现,这看起来并不正确:

Frequency Term A  
Frequency Term B  
Number of docments  
Frequency Term A and Term B  

我也尝试了以下措施,但后来我不知道如何计算合并频率:

Frequency Term pool: 1 (occurse in 1 document)  
Frequency Term duck: 2 (occurse in 2 document)  
Number of docments: 2  
Frequency Term pool and Term duck: 1 (occure together only in 1 document)  

我本来期望在练习中获得更多信息。也许有人可以帮助我如何通过这些信息获得结果?

0 个答案:

没有答案