Question

我想将20个新闻组文本与pycluster库聚集在一起：https://codedocs.xyz/annoviko/pyclustering/classpyclustering_1_1cluster_1_1cure_1_1cure.html#details 例如使用CURE。据我所知，它需要这样的输入：[[0.1，0.5]，[0.3，0.1]，...]。我可以使用scikit TfidfVectorizer或其他工具实现此目的吗？所需值是否是Vectorizer圆括号中的一个（例如（3386，15161））到目前为止，我的代码：

到目前为止，我已经尝试使用矢量化器，但是没有用。

#include <array>
#include <iostream>

class ExternalGeometryExtension
{
public:
    enum Flag {
        Defining = 0,
        Frozen = 1, 
        Detached = 2,
        Missing = 3,
        Sync = 4,
        NumFlags
    };

    constexpr static std::array<const char *,NumFlags> flag2str{{ "Defining", "Frozen", "Detached","Missing", "Sync" }};
};

int main()
{
    std::cout << ExternalGeometryExtension::flag2str[ExternalGeometryExtension::Frozen] << std::endl;
    return 0;
}

我只想像sklearn Birch一样对文本进行聚类。此刻它被杀死了。

如何使用pyclustering对文本进行聚类

0 个答案: