这可能是一个愚蠢的问题,但是我试图使用Python和Beautiful Soup 4来刮取Google文章的标题,但是我收到的许多标题太长了,被Google切断了,这意味着许多标题我刮are了。那么,有没有办法获得完整的头衔?例如,html页面上是否有一些元数据或我可以访问的内容?
这是我的代码:
# query is search term and start allows me to access each page
url = f'https://google.com/search?q={query}&start={start}'
print(url)
resp = requests.get(url)
soup = bs(resp.content, "html.parser")
for g in soup.find_all('div', {'class': 'r'}):
print(g.find('h3'))
headline = g.find('h3').text
results.append(headline)