从javascript元素

时间:2017-12-07 22:11:02

标签: python web-scraping scrapy web-crawler

我正在尝试使用scrapy从以下网址中提取数据。

import re
import json    
import scrapy    
import unicodedata    
from collections import Counter

#command scrapy crawl <spidername> -o <outputfile>

class PostsSpider(scrapy.Spider):

    name = "ljcmnt"    
    start_urls = ['https://asperger.livejournal.com/3084959.html']    
    def parse(self, response):    
        comments_ids = response.xpath("//*[@id='comments']/div[5]/div/@data-tid").extract()   
        print comments_ids

但是由于java脚本中的元素(data-tid)我无法捕获它。

data-tid获取start-url的任何帮助。

0 个答案:

没有答案