我必须执行以下算法:
CoinMarketCap(https://coinmarketcap.com/)是一个网站,内容约有100种加密货币,且市值更高。我必须编写一个爬虫程序,以提取CoinMarketCap中显示的所有货币的名称和大小写。
为此,我只需要修改两行代码: -起始网址(1) -XPath表达式,用于选择要捕获的内容(2)
如何完成代码?我不知道如何获取xpath。
谢谢。
import scrapy
from scrapy.crawler import CrawlerProcess
class uoc_spider(scrapy.Spider):
name = "uoc_spider"
start_urls = [
"1"
]
def parse(self, response):
for currency in response.xpath('2'):
yield {
'currency': currency.extract()
}
if __name__ == "__main__":
process = CrawlerProcess({
'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
'DOWNLOAD_HANDLERS': {'s3': None},
'LOG_ENABLED': False
})
process.crawl(uoc_spider)
process.start()