希伯来语中的spacy句子标记化错误

时间:2018-02-01 22:06:21

标签: python spacy

尝试为希伯来语使用spacy句子标记化。

import spacy
nlp = spacy.load('he')
doc = nlp(text)
sents = list(doc.sents)

我明白了:

    Warning: no model found for 'he'

    Only loading the 'he' tokenizer.

Traceback (most recent call last):   
  ...
    sents = list(doc.sents)   
  File "spacy/tokens/doc.pyx", line 438, in __get__ (spacy/tokens/doc.cpp:9707)
    raise ValueError( ValueError: Sentence boundary detection requires the dependency parse, which requires data to be installed. For more info, see the documentation:  https://spacy.io/docs/usage

该怎么办?

1 个答案:

答案 0 :(得分:4)

spaCy' Hebrew coverage目前很少。它目前只有希伯来语的 word 标记化,它大致在白色空间上分裂,带有一些额外的规则和例外。您想要的句子标记化/边界检测需要对句子进行更复杂的语法分析,以确定一个句子的结束位置和另一个句子的开始位置。这些模型需要大量标记的训练数据,因此可用于少量语言而不是标记化(here列表)。

最初的消息告诉你它可以进行标记化,这不需要模型,然后你得到的错误是因为没有模型来分割句子,做NER或者POS等等。

您可以查看this list获取希伯来语NLP的其他资源。如果您以正确的格式找到了足够的标签数据并且您感到雄心勃勃,那么您可以使用here描述的概述训练您自己的希伯来spaCy模型。