.replace('offset=', '')
我有链接列表:
http://www.rezultati.com/utakmica/ll33wwis/#detalji http://www.rezultati.com/utakmica/zLgwjGzm/#detalji
...
在此程序中,从所有这些链接(使用循环?)中获取数据的最佳方法是什么? 请给我一些示例或文档。
答案 0 :(得分:0)
我使用了urllib2和BeautifulSoup。但没有Selenium。看看我在Github上的代码。代码不理想和完美,但我废弃了所需的数据。 Github repo
答案 1 :(得分:0)
请检查以下代码,此处我无法测试(或获取数据)
from bs4 import BeautifulSoup
from selenium import webdriver
class ReadBooksInfo(object):
def __init__(self):
self.driver = webdriver.Chrome()
# self.driver = webdriver.Firefox()
def read_HTML(self, url):
self.driver.get(url)
html = self.driver.page_source
soup = BeautifulSoup(html.text, 'html.parser')
print(soup)
# check for your expected tag here,
rows = soup.find_all('tr')
print(rows)
test = ReadBooksInfo()
urls = ["http://www.rezultati.com/utakmica/Q7ckEKB0/#detalji",
"http://www.rezultati.com/utakmica/ll33wwis/#detalji",
"http://www.rezultati.com/utakmica/zLgwjGzm/#detalji"]
for i, url in enumerate(urls):
print(str(i) + "::" + url)
test.read_HTML(url)