我想通过连接文件中的所有文章(正文)来创建语料库。
for i in range(len(data) -1):
corpus = data[i]['body'] + data[i+1]['body']
print(corpus)
正如我想象的那样,我只能将最后两篇文章放在一起。知道如何将所有这些组合在一起吗?
答案 0 :(得分:2)
每次迭代都会覆盖corpus
的先前值。将它们连接在一起。
corpus = ''
for i in range(len(data) - 1):
corpus += data[i]['body']
这可以通过直接迭代data
来简化。
corpus = ''
for d in data:
corpus += d['body']
或者更好的是,使用str.join
和生成器表达式在一行中完成所有操作。
corpus = ''.join(d['body'] for d in data)
答案 1 :(得分:1)
RFC5545
答案 2 :(得分:-1)
print语句是循环外部的。放在里面,你很高兴