从多个网页中提取数据 - Python

时间:2017-10-27 10:20:07

标签: python-3.x beautifulsoup scrapy web-crawler

有人可以帮我从python中的多个网页提取数据

我想将客户名称,客户评论和时间从460页提取到CSV文件中。 这里是 Url

1 个答案:

答案 0 :(得分:0)

如果您想要废弃的网站总是相同的,您可以使用Selenium,更容易和更快,但必须知道页面的HTML代码。当你不得不废弃相同的页面时,这是一个更好的解决方案

例如:

from selenium import webdriver

path_to_chromedriver = "C:\\Users\\user\\AppData\\Local\\Programs\\Python\\Python36-32\\chromedriver.exe" # change path as needed
browser = webdriver.Chrome(executable_path = path_to_chromedriver)

url = "http://www.mouthshut.com/mobile-operators/Reliance-Jio-reviews-925812061"
browser.get(url)

res = browser.find_elements_by_css_selector('div.col-2.profile')
for item in res:
    try:
        user = item.find_element_by_tag_name("a")
        print(user.get_attribute("href"))
    except Exception as e:
        print("ERROR", e)

你也可以使用xpath 检查此网站http://selenium-python.readthedocs.io/locating-elements.html