从解析的html页面中查找tweet id

时间:2018-05-26 23:33:01

标签: python-3.x selenium beautifulsoup tweets

我正在尝试从解析的HTML中获取推文ID。这是我的代码:

tweet_ids = []
stat = statnum_parser(page_soup)
name = stat["Full_Name"]
print(page_soup.select("div.tweet"))
for tweet in page_soup.select("div.tweet"):   # doesn't work properly
    if tweet['data-name'] == name:
        tweet_ids.append(tweet['data-tweet-id'])

if条件检查推文是否未被转发。 for循环无法正常工作。有人能帮我吗?

我正在使用Selenium,BeautifulSoup

1 个答案:

答案 0 :(得分:0)

我弄明白了这个问题。问题是没有使用BeautifulSoup适当的硒。以下是正确获取静态网站HTML内容的代码:

    import selenium as webdriver
    path_to_chrome_driver="path_to_your_chrome_driver"
    driver = webdriver.Chrome(executable_path=path_to_chrome_driver)
    driver.base_url = "URL of the website"
    driver.get(driver.base_url)