我有一组文件(多行句子文本)。我想用carrot2聚类它们。根据文档中指定的xml文件格式。必须有一个包含片段,网址和标题的查询和文档。
我的问题如下: -
我认为对第一个问题的回答是*:*
。那是对的吗??
请帮忙!!
编辑: -
在指定xml文件并按下进程后,carrot2-wordbench会抛出java.lang.NullPointerException
。
我确信错误是由于xml文件是作为输入提供的。
有没有人知道xml可能导致程序抛出异常的错误?
我很长时间没能弄清楚这一点。
答案 0 :(得分:1)
您可以将标题和网址字段留空。如果存在标题内容,则在聚类期间给予更多权重。 URL字段仅用于显示目的。