我正在尝试从解析的HTML中获取推文ID。这是我的代码:
tweet_ids = []
stat = statnum_parser(page_soup)
name = stat["Full_Name"]
print(page_soup.select("div.tweet"))
for tweet in page_soup.select("div.tweet"): # doesn't work properly
if tweet['data-name'] == name:
tweet_ids.append(tweet['data-tweet-id'])
if条件检查推文是否未被转发。 for循环无法正常工作。有人能帮我吗?
答案 0 :(得分:0)
我弄明白了这个问题。问题是没有使用BeautifulSoup适当的硒。以下是正确获取静态网站HTML内容的代码:
import selenium as webdriver
path_to_chrome_driver="path_to_your_chrome_driver"
driver = webdriver.Chrome(executable_path=path_to_chrome_driver)
driver.base_url = "URL of the website"
driver.get(driver.base_url)