我在C#中编写了一个程序来计算TF-IDF以对文档进行排名。
我使用以下XML在文档中存储单词频率。我被批评使用这种结构。即使我使用标签中的单词文本,按照我的说法它的效率也会消耗更少的空间。此外,我可以很容易地使用XDocument进行搜索,因为它有一个很好的树结构。你能帮我理解为什么我会受到严厉批评吗?
批评:如何在元数据中添加信息? (对我而言,它是创新的)。
<word>
<siddhartha>
<doc1> 4 </doc4>
<doc2> 5 </doc2>
<insipration>
<doc1> 4 </doc1>
<doc6> 5 </doc6>
....
</word>
我被建议这样的事情:
<word>
<text> siddhartha </text>
<doc1> 4 </doc1>
<text> inspiration </text>
<doc1> 4 </doc1>
...
</word>
答案 0 :(得分:1)
您的结构(使用单词名称作为节点)将难以使用通用解析器进行解析。没有定义的结构:您需要阅读整个文档才能知道它。
我可能已经做过类似的事情(我试图对你的想法保持封闭):
<words>
<word id="siddhartha">
<freq id="doc1"> 4 </freq>
<freq id="doc2"> 5 </freq>
</word>
....
</words>