使用Requests和BeautifulSoup抓取网页。似乎无法使select()方法起作用以获取下面HTML中看到的文本。
page = bs4.BeautifulSoup(res.text)
elems = page.select("pre")
尝试以下没有运气,以及#34; #pre"和" .pre"
{{1}}
有什么想法吗?
谢谢!
*编辑:我无法编辑HTML,因为它正在从其他人的网页中删除
答案 0 :(得分:0)
我可以选择pre
代码。
from bs4 import BeautifulSoup
htmldoc = """<head><style type="text/css"></style></head> <body><pre style="word-wrap: break-word; white-space: pre-wrap;">{ "salePrice": 299.99 }</pre></body> <html hola_ext_inject="disabled"><head> <style type="text/css"></style></head> <body> <pre style="word-wrap: break-word; white-space: pre-wrap;">{ "salePrice": 299.99 }</pre> </body> </html>"""
soup = BeautifulSoup(htmldoc, 'html.parser')
print soup.select("pre")[0]
打印的是什么:
<pre style="word-wrap: break-word; white-space: pre-wrap;">{ "salePrice": 299.99 }</pre>