BeautifulSoup缺失/跳过标签

时间:2017-09-06 09:34:32

标签: python web-scraping beautifulsoup

如果你能指出我正确的方向,我们将不胜感激。是否有更好的方法来执行此操作并捕获所有数据(使用html标记类"文档文本"))...

如果我喜欢这样的话。我在最后的原始html字符串中遗漏了一些标签,大小为20K(所以它的数据很多)。

(//td[@class='iconButton']/img[@eventpart='icon'])[3]

以下是抓取的代码,现在可以正常工作,但第二个新标签已添加,但它已被破坏。

soup = BeautifulSoup(r.content, 'html5lib')
c.case_html = str(soup.find('div', class_='DocumentText')
print(self.case_html)

示例html如下原始大约是20K字符串大小

 soup = BeautifulSoup(r.content, 'html5lib')
 c.case_html = str(soup.find('div', class_='DocumentText').find_all(['p','center','small']))
 print(self.case_html)

预期输出为此

<form name="form1" id="form1">
<div id="theDocument" class="DocumentText" style="position: relative; float: left; overflow: scroll; height: 739px;">
<p>PTag</p>
<p> <center> First center </center> </p>
<small> this is small</small>
<p>...</p>
<p> <center> Second Center </center> </p>
<p>....</p>
</div>
</form>

1 个答案:

答案 0 :(得分:0)

你可以试试这个。我只根据你给出的HTML代码给出答案。如果您需要澄清,请告诉我。谢谢!

 soup = BeautifulSoup(r.content, 'html5lib')
 case_html = soup.select('div.DocumentText')
 print(case_html.get_text())