应用错误收集

时间：2018-06-18 14:40:00

标签： nlp spacy word-embedding fasttext

我使用spacy的德语模型对我的文本语料库进行了标记。从目前开始，spacy只有小型德国模型，我无法使用spacy本身提取单词向量。所以，我在这里使用fasttext的预训练单词嵌入：https://github.com/facebookresearch/fastText/blob/master/README.md#word-representation-learning

现在facebook在为其提取单词嵌入之前已经使用了ICU tokenizer进行标记化处理。我正在使用spacy 有人能告诉我这是否可以？我觉得spacy和ICU tokenizer的行为可能不同，如果是这样，那么我的文本语料库中的许多标记都没有相应的单词向量

感谢您的帮助！

答案 0 :(得分：0)

更新：

我尝试了上述方法，经过大量测试，我发现这种方法对我的用例非常有效。我数据中的大多数（几乎所有）标记都与快速文本中存在的标记匹配，因此我能够获得相同的词向量表示形式。