抓取时无法获得标题内容

时间:2019-05-22 20:06:16

标签: python selenium web-scraping beautifulsoup screen-scraping

我是新手,但是我尝试了所有方法来解决此问题,但未获得预期的结果。我想剪贴本网站https://www.accesswire.com/newsroom/,我想剪贴所有标题,当我在浏览器中检查标题时显示标题,但是用bs4或selenium剪贴后,我没有完整的页面源代码,也没有也不会成为头条新闻。

我已经尝试过time.sleep(10),但这对我来说还是行不通的。我使用硒来获取页面,但是这对我也不起作用。 div.column-15 w-col w-col-9 这是标题所在的div类

ua     = UserAgent()
header = {'user-agent':ua.chrome}
url = "https://www.accesswire.com/newsroom/"
response = requests.get(url, headers=header)
time.sleep(12)
soup = BeautifulSoup(response.content, 'html.parser')
time.sleep(12)
headline_Div = soup.find("div",{"class":"column-15 w-col w-col-9"})
print(headline_Div)

我只想获取此页面上的所有标题和标题链接 或至少应显示完整的页面资源,以便我自己进行操作。 谢谢

2 个答案:

答案 0 :(得分:2)

您不需要硒。只需使用更有效的请求和页面使用的API

var jsontemp = JsonConvert.SerializeObject(anyObject);
var ConvertedObject = JsonConvert.DeserializeObject(jsontemp, desiredType);

正则表达式说明:

尝试正则表达式trim method

答案 1 :(得分:0)

如果拉和解析不起作用是因为内容是动态的,则实际浏览器将需要硒来为您生成内容

from selenium import webdriver

driver = webdriver.Firefox()
driver.get('https://www.accesswire.com/newsroom/')
headline_links = driver.find_elements_by_css_selector('a.headlinelink')
headlines = [link.get_attribute('textContent') for link in headline_links]