我使用spacy的德语模型对我的文本语料库进行了标记。 从目前开始,spacy只有小型德国模型,我无法使用spacy本身提取单词向量。 所以,我在这里使用fasttext的预训练单词嵌入:https://github.com/facebookresearch/fastText/blob/master/README.md#word-representation-learning
现在facebook在为其提取单词嵌入之前已经使用了ICU tokenizer进行标记化处理。我正在使用spacy 有人能告诉我这是否可以? 我觉得spacy和ICU tokenizer的行为可能不同,如果是这样,那么我的文本语料库中的许多标记都没有相应的单词向量
感谢您的帮助!
答案 0 :(得分:0)
更新:
我尝试了上述方法,经过大量测试,我发现这种方法对我的用例非常有效。 我数据中的大多数(几乎所有)标记都与快速文本中存在的标记匹配,因此我能够获得相同的词向量表示形式。