我正在使用我在GitHub上使用Scrapy找到的脚本Financial-News-Crawler。基本上这抓住了上面提到的网站。它使用Json文件,其中提到了网站要爬网的规则和路径。我查看了scrapy文档,以便为我的雅虎财经网站编写JSON文件。当我尝试运行脚本时,它说“没有json可以被解码。”
这是.json文件的结构:
{
"allowed_domains" : [“finance.yahoo.com”],
"start_urls": [
"http://finance.yahoo.com/investing-news/"
],
"rules": [
{
"allow": [“/investing-news"],
"follow": true
},
],
"paths": {
"title" : ["//title/text()"],
"date" : ["//span[@class='datestamp']/text()"],
"text" : ["//div[@id=‘article_content’]”, "//div[@id='article_body']"]
},
"source": “finance yahoo“,
"company": “Yahoo”
}
我做错了什么?