在carrot2 xml文件中指定为URL的内容是什么?

时间:2016-06-22 07:11:10

标签: xml carrot2

我有一组文件(多行句子文本)。我想用carrot2聚类它们。根据文档中指定的xml文件格式。必须有一个包含片段,网址和标题的查询和文档。

我的问题如下: -

  1. 应该在XML文件的查询组件中写什么?
  2. 应该给出什么作为文件的URL和标题,因为我没有它们。我只有从数据集中提取的文档(多行文本)。
  3. 我认为对第一个问题的回答是*:*。那是对的吗?? 请帮忙!!

    编辑: -

    在指定xml文件并按下进程后,carrot2-wordbench会抛出java.lang.NullPointerException

    我确信错误是由于xml文件是作为输入提供的。

    有没有人知道xml可能导致程序抛出异常的错误?

    我很长时间没能弄清楚这一点。

1 个答案:

答案 0 :(得分:1)

您可以将标题和网址字段留空。如果存在标题内容,则在聚类期间给予更多权重。 URL字段仅用于显示目的。