我想要一个网页。
URL为https://land.3fang.com/LandAssessment/b6d8b2c8-bd4f-4bd4-9d22-ca49a7a2dc1f.html。
该网页将使用javascript生成两个值。
只需在文本框中输入5,然后按红色按钮即可。
将返回两个红色的值。
请参考下图。
我尝试使用pyqt5
,requests_html
和pyppeteer
。
这是pyqt5
的代码:
import sys
from PyQt5 import QtCore, QtWidgets, QtWebEngineWidgets
from bs4 import BeautifulSoup
class Render(QtWebEngineWidgets.QWebEnginePage):
def __init__(self, url):
self.html = ""
self.first_pass = True
self.app = QtWidgets.QApplication(sys.argv)
super(Render, self).__init__()
self.loadFinished.connect(self._load_finished)
self.loadProgress.connect(print)
self.load(QtCore.QUrl(url))
self.app.exec_()
def _load_finished(self, result):
if result:
self.call_js()
def call_js(self):
self.runJavaScript('document.getElementById("txtDistance").value = "5";')
self.runJavaScript("void(0)")
self.runJavaScript("CheckUserWhere();")
self.toHtml(self.callable)
def callable(self, data):
self.html = data
self.app.quit()
url = "https://land.3fang.com/LandAssessment/b6d8b2c8-bd4f-4bd4-9d22-ca49a7a2dc1f.html"
web = Render(url)
soup = BeautifulSoup(web.html, 'html.parser')
_bpgj = soup.find('b', {'id':"_bpgj"}).string
_bSumPrice = soup.find('b', {'id':"_bSumPrice"}).string
print(_bpgj, _bSumPrice)
但是,结果是IDLE重新启动或长时间没有响应。
如何正确执行?
非常感谢您。
答案 0 :(得分:0)
由于您的页面是使用Javascript呈现的,因此您需要一个可以像selenium这样的网络驱动程序来呈现JavaScript内容。
也请查看以下问题以获取更好的现有答案 Web-scraping JavaScript page with Python