如何使用BS4捕获异常跨度标签中的数据?

时间:2019-04-06 21:16:16

标签: regex python-3.x web-scraping beautifulsoup

我正在抓取网站上的工作,但我无法得到“美丽的汤”来在不寻常的标记之间抓取某些文本。

我只搜索了一个span标记,它就会显示在结果中,但是之后不久我无法使用re.compile显示特定的单词。

这是html的一个片段

ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Result " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"><span class="test-case-result status-2">Passed</span></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Approval " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"><span class="test-case-approval-status status-1">Pending</span></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Time Left " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" 

这是可用于抓取所有span标签的代码

soup.find_all('span')

但是当我使用

soup.find_all('span', {re.compile('Passed|Failed')}):

似乎没有任何结果

我也尝试过

soup.find_all('span', {'test-case-result status-2': re.compile('Passed|Failed')})

预期-所有通过和失败的实例都会被清除

实际-除了完全使用跨度外,所有刮刮尝试都显示为空。

我确信这很简单,我想念一些东西,但是我真的很难在文档方面取得更多进展。谢谢您的帮助。

2 个答案:

答案 0 :(得分:1)

text=中使用find_all()

soup.find_all('span', text=re.compile('Passed|Failed'))

如果没有text=,则可以使用regex搜索标签名称。

答案 1 :(得分:0)

使用bs 4.7.1时,我会避免使用正则表达式,而使用:contains伪类

from bs4 import BeautifulSoup
html = '''
  ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Result " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"><span class="test-case-result status-2">Passed</span></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Approval " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}" responsive-table-cell="ctrl.getCellData(col, row)" aria-hidden="false"><span class="test-case-approval-status status-1">Pending</span></td><!----><td ng-repeat="col in ctrl.tableConfig.columns" data-column-title="Time Left " ng-hide="col.isHidden || col.alwaysHide" ng-class="{&#39;td-content-title&#39;:col.isContentTitle}"
  '''
soup = BeautifulSoup(html, 'lxml')

spans =  soup.select('span:contains(Passed),span:contains(Failed)')
print(spans)