我可以使用spacy进行标记,然后使用训练有素的嵌入字嵌入来提取这些标记的向量

时间:2018-06-18 14:40:00

标签: nlp spacy word-embedding fasttext

我使用spacy的德语模型对我的文本语料库进行了标记。 从目前开始,spacy只有小型德国模型,我无法使用spacy本身提取单词向量。 所以,我在这里使用fasttext的预训练单词嵌入:https://github.com/facebookresearch/fastText/blob/master/README.md#word-representation-learning

现在facebook在为其提取单词嵌入之前已经使用了ICU tokenizer进行标记化处理。我正在使用spacy 有人能告诉我这是否可以? 我觉得spacy和ICU tokenizer的行为可能不同,如果是这样,那么我的文本语料库中的许多标记都没有相应的单词向量

感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

更新:

我尝试了上述方法,经过大量测试,我发现这种方法对我的用例非常有效。 我数据中的大多数(几乎所有)标记都与快速文本中存在的标记匹配,因此我能够获得相同的词向量表示形式。