Question

我有一个这种格式的csv文件：

<userName>, word1=<word1Frequency>, word2=<word2Frequency>, ...

第一个问题是，这个csv文件没有标题，这是WEKA所要求的。标题应该是什么样的？应该只是 username, word1, word2, ...

另外，要导入群集，如果每个用户在公共目录下放置1个文件，是否可以？我对此很新。我之前使用过槌，所以请随意使用槌的参考。

任何帮助都将受到高度赞赏。

谢谢！

Answer 1

将您的文件转换为ARFF格式，其标题如下所述：

关于从多个目录中读取文件，我相信这个例子可以提供帮助：

HTH

Answer 2

要将其转换为ARFF格式，您需要为每个唯一字分配一个列ID。然后将向量转换为ARFF稀疏向量，如下所示：

{<colnr> <value>, <colnr> <value>, ...}

其中colnr是整数属性编号（您为该单词指定的唯一列ID）。我相信，它们必须以递增的方式下令。

或者，您可以尝试ELKI。它似乎比Weka有更多多聚类。它有几种格式的解析器API，可能是这些格式中的一种，可以满足您的需求，或者可以更轻松地满足您的需求。

TermFrequencyParser似乎几乎是你所需要的：

用于加载术语频率数据的解析器，它基本上是稀疏向量   用文字键。

解析包含术语频率的文件。预期的格式是'label term1 term2 ...'。条款不得包含分隔符！

您可以将分隔符模式设置为[, =]+，它会立即读取您的文件。