我有一个格式如下:
sentence in english \t sentence in french \t score
sentence in english \t sentence in french \t score
每个句子都被标记化(由whitespac分隔)。
现在我需要使用NLTK加载这句话。我怎样才能做到这一点 ?我可以使用CorpusReader中的哪种方法?
在这个例子中,我可以加载NLTK提供的comtrans语料库:
from nltk.corpus.util import LazyCorpusLoader
from nltk.corpus.reader import AlignedCorpusReader
comtrans = LazyCorpusLoader(
'comtrans', AlignedCorpusReader, r'(?!\.).*\.txt',
encoding='iso-8859-1')
fe=comtrans.aligned_sents('alignment-en-fr.txt')[0]
print fe
事实上,我需要做同样的事情,但是我自己创建一个文件。
在最后一步中,我需要将英语句子中的每个单词弄清楚。