Question

我正在使用我在GitHub上使用Scrapy找到的脚本Financial-News-Crawler。基本上这抓住了上面提到的网站。它使用Json文件，其中提到了网站要爬网的规则和路径。我查看了scrapy文档，以便为我的雅虎财经网站编写JSON文件。当我尝试运行脚本时，它说“没有json可以被解码。”

这是.json文件的结构：

{
    "allowed_domains" : [“finance.yahoo.com”],
    "start_urls": [
        "http://finance.yahoo.com/investing-news/"
    ],
    "rules": [

            {
            "allow": [“/investing-news"],
            "follow": true
        },
    ],
    "paths": {
        "title" : ["//title/text()"],
        "date" : ["//span[@class='datestamp']/text()"],
        "text" : ["//div[@id=‘article_content’]”, "//div[@id='article_body']"]
    },
    "source": “finance yahoo“,
    "company": “Yahoo”
}

我做错了什么？

使用scrapy进行爬网时，JSON文件出错

0 个答案: