我希望从网页中提取生成的内容。
我正在使用python 3中的库请求返回如下页面
import requests
url = "https://app.updateimpact.com/treeof/org.json4s/json4s-
native_2.11/3.5.2"
html_doc = requests.get(url)
print(html_doc.text)
虽然检索文本似乎只是填充。我应该使用哪些工具来深入研究内容并提取其中的信息?
答案 0 :(得分:1)
JavaScript需要在页面上运行才能提供很多内容。使用硒等方法可以使其运行。请注意,需要额外的等待条件以确保某些内容已加载。然后,您可以使用硒语法提取信息或将html从page_source转储到BeautifulSoup。
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup as bs
d = webdriver.Chrome()
d.get('https://app.updateimpact.com/treeof/org.json4s/json4s-native_2.11/3.5.2')
dependencies = WebDriverWait(d, 5).until(EC.presence_of_element_located((By.CSS_SELECTOR , '.stats-list')))
print(dependencies)
soup = bs(d.page_source, 'lxml')
print(soup.select_one('#tree').text) # example
答案 1 :(得分:0)
如果内容为html,则可以查看以下内容:
如果是json,则可以使用: