我正在尝试使用scrapy从以下网址中提取数据。
import re
import json
import scrapy
import unicodedata
from collections import Counter
#command scrapy crawl <spidername> -o <outputfile>
class PostsSpider(scrapy.Spider):
name = "ljcmnt"
start_urls = ['https://asperger.livejournal.com/3084959.html']
def parse(self, response):
comments_ids = response.xpath("//*[@id='comments']/div[5]/div/@data-tid").extract()
print comments_ids
但是由于java脚本中的元素(data-tid
)我无法捕获它。
从data-tid
获取start-url
的任何帮助。