我应该创建一个脚本来收集有关某个文件夹中文件的数据,并将它们存储在xml文件中,该文件是在此过程中创建的。
我被困在了应该存储文件的第一句的位置。
文件每行有一个句子,但有些文件以空行开头。具有空行的文件将需要存储第一个非空行。 这是我的尝试:
first_sent = et.SubElement(file_corpus, 'firstsentence')
text = open(filename, 'rU')
first_sent.text=text.readline() #this line was before if!!
if text.readline() != '':
print text.readline()
first_sent.text = text.readline()
目前只有极少数文件的(随机)句子。
答案 0 :(得分:0)
您再次调用text.readline()而不是检查先前读取的值。你需要一个循环才能跳过所有空行。
类似的东西应该有效:
first_sent = et.SubElement(file_corpus, 'firstsentence')
text = open(filename, 'rU')
first_sent.text=text.readline() #this line was before if!!
while first_sent.text == '':
first_sent.text = text.readline()