Question

我正在编写一个html错误检测器来捕获我的助教为我写的html代码中最常见的错误。一个非常常见的错误（因为我们正在做大量的数学运算）是写＆gt;代替>或＆lt;而不是<（我需要空格来让StackOverflow显示命名的实体代码而不是＆lt;＆gt;！）我试着通过检测＆lt;而在handle_data（）方法中捕获它。或者＆gt; chars，但事实证明，这已经将>变为＆gt;，并将<变为＆lt;，因此它也会变为＆＃34;捕捉＆＃34;完全有效的代码。关于如何只检测＆＃34; raw＆＃34;的任何想法使用＆lt;和＆gt;，而不是正确的命名实体使用？

Answer 1

如果您可以直接从需要调试的文件中读取，只需执行以下操作：

for line in file:
if all(char in line for char in '<>'):
    print(line) # do whatever you want done here

如何检测HTMLParser中的杂散标记分隔符？

1 个答案: