应用错误收集

我正在尝试为文档聚类实现期望最大化算法。我打算使用Lucene Term Vectors来查找2个文档之间的相似性。使用朴素贝叶斯有两种EM算法：多变量模型和多项式模型。简单来说，多项模型使用文档中不同单词的频率，多变量模型只使用文档中是否存在单词的信息（布尔向量）。

我知道Lucene中的术语向量存储当前文档中存在的术语及其频率。这正是多项模型所需要的。

但多变量模型需要以下内容：存储或不存在特定术语的向量。因此，所有文件中的所有术语都必须由此向量处理。

举个例子：

doc1：field CONTENT具有以下术语：这是一个愉快的世界。

doc2：field CONTENT有以下术语：这个神奇的世界充满了讽刺的人。

现在我需要的矢量应该是

＆LT;这是令人惊叹的充满讽刺的人的世界＆gt; （它包含所有文件中的所有单词）

对于doc1，此向量的值为＆lt; 1 1 1 1 1 0 0 0 0＆gt;

对于doc2，该向量的vakue为＆lt; 1 1 0 1 0 0 1 1 1 1＆gt;

有没有办法在Lucene中生成这样的布尔矢量？