没有一个解析器能找到所有美丽的汤蟒

时间:2017-09-13 18:33:43

标签: python parsing beautifulsoup lxml html5lib

我正在尝试简单解析一个html文件,其中包含正文中的单元测试结果

url = urllib2.urlopen('file:/randomstuff/results.txt').read()
soup = BeautifulSoup(url, 'lxml')
save = soup.body.findAll(text = re.compile("failed"))

我能解决的最好的是lxml和html5lib的文本的一个实例(当接近50时)。其他解析器没有找到。无论如何我可以解决破碎的HTML吗?

身体的一个例子就是这个

*********完成对LogLevelTypeTest *********的测试 *********开始测试AppLoggerConfigTest *********
配置:使用QTest库4.8.1,Qt 4.8.1
通过:initTestCase
通过:testSetFromEnvironment
通过:cleanupTestCase
总计:3次通过,0次失败,0次跳过

Html看起来像这样

<html>
   <head></head>
   <body>
   <pre style="word-wrap: break-word; white-space: pre-wrap;">
      "Common Unit Test Results"
      ...
      ...
   </pre>
 </body>

0 个答案:

没有答案