我正在尝试使用RegexpTokenizer来分割日语句子,但它正在返回空集。谁能告诉我为什么?以及如何分割日语句子?
#!/usr/bin/python # -*- encoding: utf-8 -*-
import nltk
import os, sys, re, glob
from nltk.tokenize import RegexpTokenizer
jp_sent_tokenizer = nltk.RegexpTokenizer(u'[^ 「」!?。.)]*[!?。]')
print jp_sent_tokenizer.tokenize ('の各宣言を実行しておく必要があることに注意しよう。これ以下の節では、各スクリプト例の前にこれらがすでに宣言されていることを前提とする。')
上述代码的输出是
[]
答案 0 :(得分:2)
我认为你只是错过了一个unicode 你:
print jp_sent_tokenizer.tokenize (u'の各宣言を実行しておく必要があることに注意しよう。これ以下の節では、各スクリプト例の前にこれらがすでに宣言されていることを前提とする。')