使用python在html文件中找到body标记的结尾

时间:2012-11-07 19:41:21

标签: python

您好我有以下代码

inex = "app/index.html" 
original = open(index,"r")
for line in original:
    if line =='</body>':
        print "here"
original.close()

但它似乎没有找到该行'。即使index.html文件没有,我是否必须删除潜在的空白区域?有关如何找到标签的任何线索?
感谢

2 个答案:

答案 0 :(得分:1)

或者您可以尝试:

if '</body>' in line:

答案 1 :(得分:0)

现在你要求该行正好是"</body>",没有空格。同样有效的HTML可以在body之前有其他东西,因为html只是将行结尾视为空格,即你可以foo</body>

解决问题的最直接方法是简单地将文件内容读入字符串,然后在该字符串上调用find

allText = original.read()
location = allText.find("</body>")

还有很多HTML解析器,可以为你完成这项工作。