如何为句子创建增量ID?

时间:2016-11-30 13:49:43

标签: python nlp

我的任务是NLP任务,我必须分析句子语料库。句子中的每个单词都是一行,并对该行中的每个单词进行分析。

句子用空行分隔。我想为每个句子提供一个ID,以便能够恢复另一个表中其他字段中的其他信息。期望的结果是:

1 the
1 cat
1 is
1 black

2 the
2 moon
2 is
2 full

等等,每个单词都是一个新行。我想我应该用Python做,但我很困惑。

1 个答案:

答案 0 :(得分:0)

这样的事情可以解决问题:

count = 1
input_file = open('input.txt', 'r')
output_file = open('results.txt', 'w')
for line in input_file:
    new_line = str(count) + ' '  + line.lstrip().replace(' ', ' ' + str(count) + ' ')
    count = count + 1
    print new_line
    output_file.write(new_line)

input_file.close()
output_file.close()