Question

.replace('offset=', '')

我有链接列表：

http://www.rezultati.com/utakmica/ll33wwis/#detalji http://www.rezultati.com/utakmica/zLgwjGzm/#detalji

...

在此程序中，从所有这些链接（使用循环？）中获取数据的最佳方法是什么？请给我一些示例或文档。

Answer 1

我使用了urllib2和BeautifulSoup。但没有Selenium。看看我在Github上的代码。代码不理想和完美，但我废弃了所需的数据。 Github repo

Answer 2

请检查以下代码，此处我无法测试（或获取数据）

from bs4 import BeautifulSoup
from selenium import webdriver


class ReadBooksInfo(object):
    def __init__(self):
        self.driver = webdriver.Chrome()
        # self.driver = webdriver.Firefox()

    def read_HTML(self, url):
        self.driver.get(url)
        html = self.driver.page_source
        soup = BeautifulSoup(html.text, 'html.parser')
        print(soup)
        # check for your expected tag here,
        rows = soup.find_all('tr')
        print(rows)


test = ReadBooksInfo()

urls = ["http://www.rezultati.com/utakmica/Q7ckEKB0/#detalji",
        "http://www.rezultati.com/utakmica/ll33wwis/#detalji",
        "http://www.rezultati.com/utakmica/zLgwjGzm/#detalji"]
for i, url in enumerate(urls):
    print(str(i) + "::" + url)
    test.read_HTML(url)

Python Selenium更改网址

2 个答案: