应用错误收集

我正在尝试简单解析一个html文件，其中包含正文中的单元测试结果

url = urllib2.urlopen('file:/randomstuff/results.txt').read()
soup = BeautifulSoup(url, 'lxml')
save = soup.body.findAll(text = re.compile("failed"))

我能解决的最好的是lxml和html5lib的文本的一个实例（当接近50时）。其他解析器没有找到。无论如何我可以解决破碎的HTML吗？

身体的一个例子就是这个

*********完成对LogLevelTypeTest *********的测试 *********开始测试AppLoggerConfigTest *********
配置：使用QTest库4.8.1，Qt 4.8.1
通过：initTestCase
通过：testSetFromEnvironment
通过：cleanupTestCase
总计：3次通过，0次失败，0次跳过

Html看起来像这样

<html>
   <head></head>
   <body>
   <pre style="word-wrap: break-word; white-space: pre-wrap;">
      "Common Unit Test Results"
      ...
      ...
   </pre>
 </body>

没有一个解析器能找到所有美丽的汤蟒

0 个答案: