我正在尝试简单解析一个html文件,其中包含正文中的单元测试结果
url = urllib2.urlopen('file:/randomstuff/results.txt').read()
soup = BeautifulSoup(url, 'lxml')
save = soup.body.findAll(text = re.compile("failed"))
我能解决的最好的是lxml和html5lib的文本的一个实例(当接近50时)。其他解析器没有找到。无论如何我可以解决破碎的HTML吗?
身体的一个例子就是这个
*********完成对LogLevelTypeTest *********的测试
*********开始测试AppLoggerConfigTest *********
配置:使用QTest库4.8.1,Qt 4.8.1
通过:initTestCase
通过:testSetFromEnvironment
通过:cleanupTestCase
总计:3次通过,0次失败,0次跳过
Html看起来像这样
<html>
<head></head>
<body>
<pre style="word-wrap: break-word; white-space: pre-wrap;">
"Common Unit Test Results"
...
...
</pre>
</body>