想要从页面获取视频时间

时间:2015-08-30 22:20:45

标签: python scrapy

我正在上课的Coursera课程。我需要记录我正在观看的每个视频的时间。我找到了scrapy并且很兴奋。我登录了我的课程并完成了该部分的所有视频观看。

我尝试打开一个scrapy shell:scrapy shell" https://class.coursera.org/regmods-030/lecture"

然后我在Firebug的新标签页面中打开页面,尝试找到有时间的HTML标签。我找到了:<a blah > title (1:23) </a><div class="hidden"> Title (1:23)

在我打开网址后的shell中,我尝试response.xpath('//div[@class="hidden"]')并没有得到任何结果。

这是蜘蛛代码:

import scrapy

class DataSpider(scrapy.Spider):
name = "data"
allowed_domains = ["coursera.org"]
start_urls = [
   "https://class.coursera.org/regmods-030/lecture"
]

def parse(self, response):
    for sel in response.xpath('//ul/li'):
        item = DataItem()
        item['title'] = sel.xpath('a/text()').extract()
        item['link'] = sel.xpath('a/@href').extract()
        item['desc'] = sel.xpath('text()').extract()
        yield item`

我意识到上面的代码是针对本教程的,但我找不到如何搜索div。

最终,我想要做的是能够将视频的时间缩短为CSV文件,以便我可以将它们添加起来。然后我可以将这些信息提交给我的老板。

我哪里错了?

0 个答案:

没有答案