因此,我尝试创建有关唯一术语(列)和文档编号(行)的TF-IDF矩阵。我能够以我创建的反向索引访问TFIDF,该索引存储了与单词相关的所有信息。我将显示一些输出,让您了解如何构造此索引。
问题是,我在尝试将正确的TF-IDF值插入2D坐标时遇到问题。
这是我的反向索引的输出(数据结构):
{条款:{docid:[条款计数WRT文档,总条款WRT文档,[过帐清单],条款频率,TFIDF]}}
{term:{'WordInfo':[stemword(term),IDF]}}
export interface Answer {
correct: boolean
selected: boolean;
answer: string;
color: string; // Add this line!
}
使用这种数据结构,我只是尝试输入相对于documentID的术语TFIDF值,但是,当我创建一个零数组时,其索引的数据维数(供参考)有1033个文档, 13244个唯一术语,这意味着我有一个1033x13244零矩阵)
某种程度上,我很难正确地插入这些值,这很可能与我构造矩阵或解析并尝试插入值的方式有误。
我正在对术语和文件进行排序:files [0..N]和术语['0a'...'9z']
'glandular': {'177.txt': [1,
67,
[22],
0.014925373134328358,
0.07454197492633322],
'343.txt': [1,
60,
[5],
0.016666666666666666,
0.08323853866773875],
'407.txt': [1,
129,
[108],
0.007751937984496124,
0.03871559938034361],
'671.txt': [1,
47,
[25],
0.02127659574468085,
0.10626196425668777],
'70.txt': [2,
151,
[18, 37],
0.013245033112582781,
0.06614983205383212],
'784.txt': [1,
103,
[26],
0.009708737864077669,
0.0484884691268381],
'WordInfo': ['glandular', 7, 4.994312320064325]},
尽管从现在开始,每当我尝试替换零时,每当我需要检索正确的值并将其相对于[filed,term]坐标插入时,索引似乎都完全错误了?
csv文件返回全零,因此似乎没有任何改变。