对BERT词嵌入进行PCA培训:整个培训数据集还是每个文档?

时间:2020-04-17 23:54:10

标签: python scikit-learn pca word-embedding

我想减少嵌入50个尺寸的BERT字的维数。我正在尝试PCA。我将其用于文档分类任务。

现在要训练PCA,我应该一次使用整个数据集中的所有单词向量对整个数据集进行训练吗?

pca.fit_transform([all_the_word_vectors_of_the_dataset])

或每个文档的单词向量,即:

for document in train_dataset:
    pca.fit_transform([word_vectors_of_current_document])

0 个答案:

没有答案