我试图用word2vec和numpy聚类一些文档。
w2v = W2VTransformer()
X_train = w2v.fit_transform(X_train)
当我运行fit或fit_transform时,我收到此错误:
Thread-8中的异常: Traceback(最近一次调用最后一次): 文件" C:\ Users \ lperona \ AppData \ Local \ Continuum \ anaconda3 \ lib \ threading.py",第916行,在_bootstrap_inner中 self.run() 文件" C:\ Users \ lperona \ AppData \ Local \ Continuum \ anaconda3 \ lib \ threading.py",第864行,在运行中 self._target(* self._args,** self._kwargs) 文件" C:\ Users \ lperona \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ gensim \ models \ base_any2vec.py",第99行,在_worker_loop中 tally,raw_tally = self._do_train_job(data_iterable,job_parameters,thread_private_mem) 文件" C:\ Users \ lperona \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ gensim \ models \ word2vec.py",第539行,在_do_train_job中 理货+ = train_batch_cbow(自我,句子,阿尔法,工作,neu1,self.compute_loss) 文件" gensim / models / word2vec_inner.pyx",第458行,在gensim.models.word2vec_inner.train_batch_cbow中 ValueError:具有多个元素的数组的真值是不明确的。使用a.any()或a.all()
(X_train是一个2D numpy字符串数组)
有谁知道解决方案? 谢谢
答案 0 :(得分:0)
当使用numpy数组时,gensim的word2vec似乎有一些问题。将数据转换为python列表对我有帮助。