weka StringToWordVector过滤器reversion(java)

时间:2014-01-21 14:15:15

标签: java cluster-analysis weka text-mining

我无法使用 weka 库处理群集。我有字符串属性,所以我使用StringToWordVector过滤器,但是如何在集群之后从WordVector转回字符串表示以显示“人类可读”的结果? 我想恢复此操作:

StringToWordVector filter = new StringToWordVector();
filter.setInputFormat(instancesToFilter);
Instances dataFiltered = Filter.useFilter(instancesToFilter, filter);

可能吗?

2 个答案:

答案 0 :(得分:2)

StringToWordVector过滤器无法撤消。但是,您至少有两种可能性:

  • 如果您只想查看或显示每个群集中的原始字符串,可以添加ID属性,确保在群集期间不使用该属性(以避免意外行为),然后从中恢复文本原始字符串(ARFF文件)。
  • 如果要显示每个群集内容的一些有意义的摘要,您只需输出每个群集中最频繁/最重的词。在聚类文本时,这是一种相当常见的方法。

答案 1 :(得分:1)

过滤器有损

因此,不存在(精确)逆转换。不过,你可以用某种方式近似它。

考虑查看过滤器的源代码。