Question

我是Spacy和NLP的新手。使用Spacy进行句段分割时面临以下问题。

我要标记为句子的文本包含编号列表（编号和实际文本之间有空格）。如下所示。

import spacy
nlp = spacy.load('en_core_web_sm')
text = "This is first sentence.\nNext is numbered list.\n1. Hello World!\n2. Hello World2!\n3. Hello World!"
text_sentences = nlp(text)
for sentence in text_sentences.sents:
    print(sentence.text)

Output（1.，2.，3。被认为是单独的行）是：

This is first sentence.

Next is numbered list.

1.
Hello World!

2.
Hello World2!

3.
Hello World!

但是，如果编号和实际文本之间没有空格，那么句子标记化就可以了。像下面一样

import spacy
nlp = spacy.load('en_core_web_sm')
text = "This is first sentence.\nNext is numbered list.\n1.Hello World!\n2.Hello World2!\n3.Hello World!"
text_sentences = nlp(text)
for sentence in text_sentences.sents:
    print(sentence.text)

期望的输出是：

This is first sentence.

Next is numbered list.

1.Hello World!

2.Hello World2!

3.Hello World!

请建议我们是否可以为此定制句子检测器。

Answer 1

当您使用带有spacy的预训练模型时，句子将根据模型训练过程中提供的训练数据进行拆分。

当然，在某些情况下，例如您可能需要使用自定义句子分割逻辑。通过向spacy管道添加组件，可以实现这一点。

对于您的情况，可以添加一个规则，以防止在有{number}时句子分裂。图案。

解决问题的方法：

import spacy
import re
nlp = spacy.load('en')
boundary = re.compile('^[0-9]$')
def custom_seg(doc):
    prev = doc[0].text
    length = len(doc)
    for index, token in enumerate(doc):
        if (token.text == '.' and boundary.match(prev) and index!=(length - 1)):
            doc[index+1].sent_start = False
        prev = token.text
    return doc
nlp.add_pipe(custom_seg, before='parser')
text = u'This is first sentence.\nNext is numbered list.\n1. Hello World!\n2. Hello World2!\n3. Hello World!'
doc = nlp(text)
for sentence in doc.sents:
    print(sentence.text)

希望有帮助！

使用Spacy进行句子分割

1 个答案: