首先让我跟你说清楚,
我的网址中包含&
,我想抓取它。
当我从命令行手动抓取它时,它运行正常,但是当我告诉蜘蛛从xml
文件中读取起始URL时,我遇到的问题就像xml文件没有正确定义,我100%确定问题是起始网址中的&
,因为当我使用我的代码读取任何没有&
标志的网址时,ti完美无缺
我尝试将&
更改为&
,但这不起作用
请帮助
顺便说一下,这是网址 https://itunes.apple.com/ae/genre/ios-social-networking/id6005?mt=8&letter=A答案 0 :(得分:1)
尝试对&符号进行百分比编码:
https://itunes.apple.com/ae/genre/ios-social-networking/id6005?mt=8%26letter=A
或者,作为替代方案,使用;
作为分隔符:
https://itunes.apple.com/ae/genre/ios-social-networking/id6005?mt=8;letter=A