我对编程非常了解,我认为最好的入门方法是挑战各种编码项目。我正在尝试从imdb抓取用户评论,以对评论进行数据可视化和情感分析。
我能够刮擦前25条评论,但是由于加载更多按钮,我无法刮擦其他评论。在过去的几周中,我尝试了各种youtube视频,博客和其他帖子,例如“如何使用python在imdb中按“加载更多””。但是,我仍然被困住。
如果有人能提供有关如何利用DevTools中的“网络”部分的说明,以及将其集成到我的代码中以解决此问题的建议,我将非常感激。
下面我包括了我的代码:
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
my_url="https://www.imdb.com/title/tt5463162/reviews/"
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
# Parse HTML page
page_soup = soup(page_html,"html.parser")
# Save review div tags to review_containers
reviews = page_soup.findAll("div",{"class":"review-container"})
print(reviews)
我还没有完成所有提取所有数据的循环。一旦我学会了如何获得所有评论,我就要完成这一工作。我正在尝试获得等级,标题和评论,但是我已经在另一个文件上解决了那部分。
谢谢!