我正在上课的Coursera课程。我需要记录我正在观看的每个视频的时间。我找到了scrapy并且很兴奋。我登录了我的课程并完成了该部分的所有视频观看。
我尝试打开一个scrapy shell:scrapy shell" https://class.coursera.org/regmods-030/lecture"
然后我在Firebug的新标签页面中打开页面,尝试找到有时间的HTML标签。我找到了:<a blah > title (1:23) </a>
和
<div class="hidden"> Title (1:23)
。
在我打开网址后的shell中,我尝试response.xpath('//div[@class="hidden"]')
并没有得到任何结果。
这是蜘蛛代码:
import scrapy
class DataSpider(scrapy.Spider):
name = "data"
allowed_domains = ["coursera.org"]
start_urls = [
"https://class.coursera.org/regmods-030/lecture"
]
def parse(self, response):
for sel in response.xpath('//ul/li'):
item = DataItem()
item['title'] = sel.xpath('a/text()').extract()
item['link'] = sel.xpath('a/@href').extract()
item['desc'] = sel.xpath('text()').extract()
yield item`
我意识到上面的代码是针对本教程的,但我找不到如何搜索div。
最终,我想要做的是能够将视频的时间缩短为CSV文件,以便我可以将它们添加起来。然后我可以将这些信息提交给我的老板。
我哪里错了?