从Codechef Userid中提取Recent Activity数据

时间:2014-10-16 18:26:18

标签: python selenium-webdriver web-scraping

我想为用户提取Recent Activity数据(即用户的最新提交时间),这是我的大学项目。 我在python中使用BeautifulSoup尝试了它,在随机用户页面上使用它,

代码:

import urllib
from bs4 import BeautifulSoup
page = urllib2.urlopen('http://www.codechef.com/users/peeyushy95')
page = page.read()
soup = BeautifulSoup(page)
soup.prettify()
f1=open('./testfile.txt', 'w+')
f1.write(soup.get_text().encode('utf-8'))

我正在收到页面上的所有文字但是对于“最近的活动”#39;只有标题没有表条目。 有人可以帮我提取用户最近提交的日期和时间吗?

1 个答案:

答案 0 :(得分:1)

打开网页后,使用Selenium Web Scrapper等待一段预定义的时间(比如5秒),然后废弃页面。我发布了selenium代码的主要部分

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from BeautifulSoup import BeautifulSoup
import time
browser = webdriver.Firefox()
baseURL="http://www.codechef.com/users/peeyushy95"
browser.get(baseURL)
time.sleep(5)
soup=BeautifulSoup(browser.page_source)
L=str(soup)
f_out=open("/home/adi/experi/data_up.txt","w")
f_out.write(L)
f_out.close()