Python标记化

时间:2016-03-26 11:25:57

标签: python tokenize

我是Python的新手,我有一个Tokenization任务 Input是一个带句子的.txt文件 并输出带有标记的.txt文件,当我说令牌时我的意思是:简单的单词,',','!' ,'?' ,'。' '''

我有这个功能: 输入: Elemnt是一个带或不带标点符号的单词,可以是这样的单词:嗨或说:或者说“ StrForCheck:是一个标点符号数组,我想从单词中分离出来 TokenFile:是我的输出文件

def CheckIfSEmanExist(Elemnt,StrForCheck,TokenFile):

FirstOrLastIsSeman = 0

for seman in StrForCheck:
    WordSplitOnSeman = Elemnt.split(seman)
    if len(WordSplitOnSeman) > 1:
        if Elemnt[len(Elemnt)-1] == seman:
            FirstOrLastIsSeman = len(Elemnt)-1
        elif Elemnt[0] == seman:
            FirstOrLastIsSeman = 1

if FirstOrLastIsSeman == 1:
    TokenFile.write(Elemnt[0])
    TokenFile.write('\n')
    TokenFile.write(Elemnt[1:-1])
    TokenFile.write('\n')

elif FirstOrLastIsSeman == len(Elemnt)-1:
    TokenFile.write(Elemnt[0:-1])
    TokenFile.write('\n')
    TokenFile.write(Elemnt[len(Elemnt)-1])
    TokenFile.write('\n')

elif FirstOrLastIsSeman == 0:
    TokenFile.write(Elemnt)
    TokenFile.write('\n')

代码循环遍历标点数组,如果找到一个,我检查标点符号是单词中的第一个字母还是最后一个字母,并在输出文件中写入单词和标点符号各自在不同的行中

但我的问题是,除了这些词之外,它在整篇文章中都很精彩: 工作“,创造”,公共“,警察”

1 个答案:

答案 0 :(得分:1)

请注意

for l in open('some_file.txt', 'r'):
    ...

迭代每一行,所以你只需要考虑在一行内做什么。

考虑以下功能:

def tokenizer(l):
    prev_i = 0
    for (i, c) in enumerate(l):
        if c in ',.?!- ':
            if prev_i != i:
                yield l[prev_i: i]
            yield c
            prev_i = i + 1
    if prev_i != 0:
        yield l[prev_i: ]
随着它的流逝,它会“吐出”代币。您可以像这样使用它:

l = "hello, hello, what's all this shouting? We'll have no trouble here"
for tok in tokenizer(l):
    print tok
hello
,

hello
,

what's

all

this

shouting
?

We'll

have

no

trouble

here