我的任务是NLP任务,我必须分析句子语料库。句子中的每个单词都是一行,并对该行中的每个单词进行分析。
句子用空行分隔。我想为每个句子提供一个ID,以便能够恢复另一个表中其他字段中的其他信息。期望的结果是:
1 the
1 cat
1 is
1 black
2 the
2 moon
2 is
2 full
等等,每个单词都是一个新行。我想我应该用Python做,但我很困惑。
答案 0 :(得分:0)
这样的事情可以解决问题:
count = 1
input_file = open('input.txt', 'r')
output_file = open('results.txt', 'w')
for line in input_file:
new_line = str(count) + ' ' + line.lstrip().replace(' ', ' ' + str(count) + ' ')
count = count + 1
print new_line
output_file.write(new_line)
input_file.close()
output_file.close()