首先从文件中读取非空行并以XML格式存储

时间:2015-03-22 18:51:24

标签: python xml readline

我应该创建一个脚本来收集有关某个文件夹中文件的数据,并将它们存储在xml文件中,该文件是在此过程中创建的。

我被困在了应该存储文件的第一句的位置。

文件每行有一个句子,但有些文件以空行开头。具有空行的文件将需要存储第一个非空行。 这是我的尝试:

    first_sent = et.SubElement(file_corpus, 'firstsentence')
    text = open(filename, 'rU')

    first_sent.text=text.readline() #this line was before if!!

    if text.readline() != '':
        print text.readline()

        first_sent.text = text.readline()

目前只有极少数文件的(随机)句子。

1 个答案:

答案 0 :(得分:0)

您再次调用text.readline()而不是检查先前读取的值。你需要一个循环才能跳过所有空行。

类似的东西应该有效:

first_sent = et.SubElement(file_corpus, 'firstsentence')
text = open(filename, 'rU')

first_sent.text=text.readline() #this line was before if!!

while first_sent.text == '':
    first_sent.text = text.readline()