在Linux 2.6.32-696.18.7.el6.x86_6和Java SE Runtime Environment(内部版本1.7.0_05-b06)下,我具有以下mallet命令(对于v 2.0.8(2016年5月3日)): / p>
bin/mallet train-topics --input html/$1/topic --num-topics $1 \
--output-doc-topics result \
--output-topic-docs top.gz
--optimize-interval 10 \
--num-threads 20 \
--output-topic-keys keys.txt \
--optimize-interval 10
但是经过1000次迭代后,我只会得到以下输出:
<1000> LL/token: -8.98037 Total time: 1 hours 47 minutes 18 seconds Exception in thread "main" java.lang.ClassCastException: java.net.URI cannot be cast to java.lang.String at cc.mallet.topics.ParallelTopicModel.printTopicDocuments(ParallelTopicModel.java:1773) at cc.mallet.topics.tui.TopicTrainer.main(TopicTrainer.java:281)关于这意味着什么或如何避免该问题的任何建议?有办法继续吗?
丹尼尔·芬伯格 NBER
答案 0 :(得分:0)
感谢您使用槌!直接的原因是2.0.8版本期望“名称”字段是字符串,而不是URI。在2.0.8版本发布后不久,Te Rutherford发出的拉动请求中似乎修复了此问题。接下来的几周内应该会有2.1的预发布版本。