如何检测HTMLParser中的杂散标记分隔符?

时间:2017-10-03 09:12:48

标签: python html

我正在编写一个html错误检测器来捕获我的助教为我写的html代码中最常见的错误。一个非常常见的错误(因为我们正在做大量的数学运算)是写>代替>或<而不是<(我需要空格来让StackOverflow显示命名的实体代码而不是<>!)我试着通过检测<而在handle_data()方法中捕获它。或者> chars,但事实证明,这已经将>变为>,并将<变为<,因此它也会变为"捕捉"完全有效的代码。 关于如何只检测" raw"的任何想法使用<和>,而不是正确的命名实体使用?

1 个答案:

答案 0 :(得分:0)

如果您可以直接从需要调试的文件中读取,只需执行以下操作:

for line in file:
if all(char in line for char in '<>'):
    print(line) # do whatever you want done here