Question

我的任务是NLP任务，我必须分析句子语料库。句子中的每个单词都是一行，并对该行中的每个单词进行分析。

句子用空行分隔。我想为每个句子提供一个ID，以便能够恢复另一个表中其他字段中的其他信息。期望的结果是：

1 the
1 cat
1 is
1 black

2 the
2 moon
2 is
2 full

等等，每个单词都是一个新行。我想我应该用Python做，但我很困惑。

Answer 1

这样的事情可以解决问题：

count = 1
input_file = open('input.txt', 'r')
output_file = open('results.txt', 'w')
for line in input_file:
    new_line = str(count) + ' '  + line.lstrip().replace(' ', ' ' + str(count) + ' ')
    count = count + 1
    print new_line
    output_file.write(new_line)

input_file.close()
output_file.close()

如何为句子创建增量ID？

1 个答案: