我正在使用nltk,我将整个文本文件标记为具有评论,并将其存储在变量文本中:
with open("reviews.txt") as f:
text=f.read()
现在,我在句子标记化中对整个文本进行了标记。
import nltk
from nltk.tokenize import sent_tokenize
tokenized=sent_tokenize(text)
现在,整个标记化数据采用tokenized
当我尝试将此句子标记化数据存储在txt文件中时,我收到类型错误
with open("sentences.txt","w+") as f1:
f1.write(tokenized)
执行时出现类型错误
TypeError: must be str, not list
答案 0 :(得分:0)
string="abc"
mainstr="ncnabckjdjkabcxcxccccxcxcabc"
count=0
for i in range(0,len(mainstr)):
k=0
while(k<len(string)):
if(string[k]==mainstr[i+k]):
k+=1
else:
break
if(k==len(string)):
count+=1;
print(count)
返回字符串列表,而不是字符串或者在这个上下文中 - 句子字符串。如果您希望将它们写入文件,则应替换
sent_tokenize
使用此代码(假设您希望每行写一个句子):
with open("sentences.txt","w+") as f1:
f1.write(tokenized)
将with open("sentences.txt","w+") as f1:
f1.write('\n'.join(tokenized))
替换为您想要的句子分隔符(逗号'\n'
分号','
等)。
答案 1 :(得分:0)
您应该能够以交互模式回答这个问题。