Question

我必须执行以下算法：

CoinMarketCap（https://coinmarketcap.com/）是一个网站，内容约有100种加密货币，且市值更高。我必须编写一个爬虫程序，以提取CoinMarketCap中显示的所有货币的名称和大小写。

为此，我只需要修改两行代码： -起始网址（1） -XPath表达式，用于选择要捕获的内容（2）

如何完成代码？我不知道如何获取xpath。

谢谢。

import scrapy
from scrapy.crawler import CrawlerProcess

class uoc_spider(scrapy.Spider):

    name = "uoc_spider"

    start_urls = [
        "1"
    ]

    def parse(self, response):

        for currency in response.xpath('2'):

            yield {
                'currency': currency.extract()
            }
if __name__ == "__main__":

    process = CrawlerProcess({
        'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
        'DOWNLOAD_HANDLERS': {'s3': None},
        'LOG_ENABLED': False
    })

    process.crawl(uoc_spider)

    process.start()

如何在Python中获取xpath

0 个答案: