创建向量空间

时间:2018-12-04 06:45:19

标签: python python-3.x machine-learning nlp jupyter-notebook

我有一个问题: 我有很多文档,每一行都是通过某种模式构建的。 当然,我有这一系列的模式。

我想创建一些向量空间,然后按照某种规则对这种模式进行向量化(我尚不知道该规则是什么..)-即使这种模式像我向量空间的“质心”。 然后,对当前文档的每一行进行矢量化(再次遵循此规则),并计算到此行的壁橱质心(即,两个矢量之间的最小距离)。

我不知道该怎么办? 我知道sklearn库和CountVectorizer / TfidfVectorizer / HashingVectorizer-但这取决于词汇量。但是,同样,我有很多文档,这就是为什么词汇中的单词过多(如果这样做的话,但是在下一个新文档中,它可能是这个词汇所没有的新单词。这就是解决我的问题的错误方法) 同样,带有文本预处理功能的Keras库不能解决我的第二个问题。 E.x. “ one hot”将文本编码为size的单词索引列表。但是每个文档可能具有不同的大小,当然还有顺序。这样比较两个向量可能会产生很大的距离,但实际上,这些向量(单词,由这些向量编码)非常相似。

0 个答案:

没有答案