Question

使用Requests和BeautifulSoup抓取网页。似乎无法使select（）方法起作用以获取下面HTML中看到的文本。

page = bs4.BeautifulSoup(res.text)
elems = page.select("pre")

尝试以下没有运气，以及＃34; #pre＆＃34;和＆＃34; .pre＆＃34;

{{1}}

有什么想法吗？

谢谢！

*编辑：我无法编辑HTML，因为它正在从其他人的网页中删除

Answer 1

我可以选择pre代码。

from bs4 import BeautifulSoup

htmldoc = """<head><style type="text/css"></style></head> <body><pre style="word-wrap: break-word; white-space: pre-wrap;">{ "salePrice": 299.99 }</pre></body> <html hola_ext_inject="disabled"><head> <style type="text/css"></style></head> <body> <pre style="word-wrap: break-word; white-space: pre-wrap;">{ "salePrice": 299.99 }</pre> </body> </html>"""

soup = BeautifulSoup(htmldoc, 'html.parser')

print soup.select("pre")[0]

打印的是什么：

<pre style="word-wrap: break-word; white-space: pre-wrap;">{ "salePrice": 299.99 }</pre>

Python请求Select（）方法 - 选择＆＃39; pre＆＃39;元件

1 个答案: