Question

我正在尝试使用scrapy view https://www.example.com（不是真正的链接，因为我的工作不允许我公开它。很抱歉。）来调试链接，但随后出现此错误。

2018-11-01 20:49:29 [twisted] CRITICAL: Unhandled error in Deferred:

2018-11-01 20:49:29 [twisted] CRITICAL:
Traceback (most recent call last):
  File "d:\kerja\hit\python projects\my_project\my_project-env\lib\site-packages\twisted\internet\defer.py", line 1386, in _inlineCallbacks
    result = g.send(result)
  File "d:\kerja\hit\python projects\my_project\my_project-env\lib\site-packages\scrapy\crawler.py", line 98, in crawl
    six.reraise(*exc_info)
  File "d:\kerja\hit\python projects\my_project\my_project-env\lib\site-packages\scrapy\crawler.py", line 79, in crawl
    self.spider = self._create_spider(*args, **kwargs)
  File "d:\kerja\hit\python projects\my_project\my_project-env\lib\site-packages\scrapy\crawler.py", line 102, in _create_spider
    return self.spidercls.from_crawler(self, *args, **kwargs)
  File "d:\kerja\hit\python projects\centurica\centurica-env\lib\site-packages\scrapy\spiders\__init__.py", line 51, in from_crawler
    spider = cls(*args, **kwargs)
TypeError: __init__() got an unexpected keyword argument 'start_requests'
'page' is not recognized as an internal or external command,
operable program or batch file.

如何避免出现该错误？

更新：

我在一个Scrapy项目中遇到该错误，但在使用其他Scrapy项目时却没有任何错误。蜘蛛看来这是个问题。

Answer 1

1。

如Elena in his/her answer所述，您给出的示例命令没有被引用。您需要正确处理&字符（通过引用命令或至少转义该字符），以将正确的URL作为参数传递给Scrapy。

虽然这是需要解决的问题，但我认为这不是您目前拥有TypeError的原因。

2。

在处理scrapy fetch和scrapy view之类的命令时，Scrapy需要为该任务初始化一个scrapy.Spider实例。

在此过程中，Scrapy会在当前路径中查找scrapy.cfg文件，并且：

案例A：如果有这样的文件，Scrapy会在当前工作路径下识别该项目，然后尝试在其中加载现有的scrapy.Spider类。
案例B：如果没有，这意味着没有可用的Scrapy项目，Scrapy只会初始化默认的scrapy.Spider实例。

根据您共享的日志，您的情况是A。

此外，在处理scrapy fetch命令时，Scrapy会尝试通过蜘蛛参数（相关代码here）来覆盖start_requests属性。并且根据您共享的日志，您的蜘蛛程序不接受此类参数。

因此，您可以尝试以下任何一种方法：

提案A：将工作目录更改为没有Scrapy项目的其他地方（例如cd /tmp/）。然后重试相同的scrapy fetch命令。
提案B：正确处理输入参数（下面的示例），然后重试相同的scrapy fetch命令。

无论哪种情况，您都可能需要按照＃1中的说明修复scrapy fetch命令。

3。

以上提案B的示例代码：

import scrapy


class TestSpider(scrapy.Spider):
    name = 'test'

    def __init__(self, argument_foo, argument_bar, *args, **kwargs):
        super().__init__(*args, **kwargs)
        # handle your argument "foo" and "bar" here
        # e.g. self.xxx = int(argument_foo)

Answer 2

尝试使用引号吗？像scrapy view "https://empireflippers.com/wp-admin/admin-ajax.php?action=ef_listings_paginated&page=1"

使用Scrapy View时出现TypeError

2 个答案: