如何使用pyclustering对文本进行聚类

时间:2019-04-03 12:21:07

标签: python scikit-learn tfidfvectorizer

我想将20个新闻组文本与pycluster库聚集在一起:https://codedocs.xyz/annoviko/pyclustering/classpyclustering_1_1cluster_1_1cure_1_1cure.html#details 例如使用CURE。据我所知,它需要这样的输入:[[0.1,0.5],[0.3,0.1],...]。 我可以使用scikit TfidfVectorizer或其他工具实现此目的吗?所需值是否是Vectorizer圆括号中的一个(例如(3386,15161)) 到目前为止,我的代码:

到目前为止,我已经尝试使用矢量化器,但是没有用。

#include <array>
#include <iostream>

class ExternalGeometryExtension
{
public:
    enum Flag {
        Defining = 0,
        Frozen = 1, 
        Detached = 2,
        Missing = 3,
        Sync = 4,
        NumFlags
    };

    constexpr static std::array<const char *,NumFlags> flag2str{{ "Defining", "Frozen", "Detached","Missing", "Sync" }};
};

int main()
{
    std::cout << ExternalGeometryExtension::flag2str[ExternalGeometryExtension::Frozen] << std::endl;
    return 0;
}

我只想像sklearn Birch一样对文本进行聚类。此刻它被杀死了。

0 个答案:

没有答案