我的XML文档排名有什么问题?

时间:2012-03-07 21:38:29

标签: asp.net xml information-retrieval

我在C#中编写了一个程序来计算TF-IDF以对文档进行排名。

我使用以下XML在文档中存储单词频率。我被批评使用这种结构。即使我使用标签中的单词文本,按照我的说法它的效率也会消耗更少的空间。此外,我可以很容易地使用XDocument进行搜索,因为它有一个很好的树结构。你能帮我理解为什么我会受到严厉批评吗?

批评:如何在元数据中添加信息? (对我而言,它是创新的)。

<word>
   <siddhartha>
      <doc1> 4 </doc4>
      <doc2> 5 </doc2>

   <insipration>
      <doc1> 4 </doc1>
      <doc6> 5 </doc6>

   ....
</word>

我被建议这样的事情:

   <word>
   <text> siddhartha </text>
   <doc1> 4 </doc1>
   <text> inspiration </text>
   <doc1> 4 </doc1>
   ...
   </word>

1 个答案:

答案 0 :(得分:1)

您的结构(使用单词名称作为节点)将难以使用通用解析器进行解析。没有定义的结构:您需要阅读整个文档才能知道它。

我可能已经做过类似的事情(我试图对你的想法保持封闭):

<words>
   <word id="siddhartha">
      <freq id="doc1"> 4 </freq>
      <freq id="doc2"> 5 </freq>
   </word>
   ....
</words>