对于以下页面:
http://www.aidn.org.au/Industry-ViewCompany.asp?CID=3113
我有以下刮擦代码:
findit = soup.find_all("td", "Page-Headers", align="left")
print findit
返回以下内容:
[<td align="left" class="Page-Headers" valign="middle">Aerospace Materials Pty Ltd</td>]
到目前为止很好。
如何使用BeautifulSoup从此模式返回文本元素(“Aerospace Materials Pty Ltd”)?或者是简单地对此输出进行正则表达式的最佳方法?
谢谢!
答案 0 :(得分:3)
使用getText
for td in soup_result:
print td.getText()
或正如@Zero Piraeus针对bs4
指出的那样,你应该使用.get_text()
答案 1 :(得分:2)
您可以使用.string
属性:
>>> for el in findit:
... print el.string
...
Aerospace Materials Pty Ltd
>>>