Question

我正在上课的Coursera课程。我需要记录我正在观看的每个视频的时间。我找到了scrapy并且很兴奋。我登录了我的课程并完成了该部分的所有视频观看。

我尝试打开一个scrapy shell：scrapy shell＆＃34; https://class.coursera.org/regmods-030/lecture＆＃34;

然后我在Firebug的新标签页面中打开页面，尝试找到有时间的HTML标签。我找到了：<a blah > title (1:23) </a>和 <div class="hidden"> Title (1:23)。

在我打开网址后的shell中，我尝试response.xpath('//div[@class="hidden"]')并没有得到任何结果。

这是蜘蛛代码：

import scrapy

class DataSpider(scrapy.Spider):
name = "data"
allowed_domains = ["coursera.org"]
start_urls = [
   "https://class.coursera.org/regmods-030/lecture"
]

def parse(self, response):
    for sel in response.xpath('//ul/li'):
        item = DataItem()
        item['title'] = sel.xpath('a/text()').extract()
        item['link'] = sel.xpath('a/@href').extract()
        item['desc'] = sel.xpath('text()').extract()
        yield item`

我意识到上面的代码是针对本教程的，但我找不到如何搜索div。

最终，我想要做的是能够将视频的时间缩短为CSV文件，以便我可以将它们添加起来。然后我可以将这些信息提交给我的老板。

我哪里错了？

想要从页面获取视频时间

0 个答案: