scrapy:xpath没有返回@href的完整url

时间:2016-10-25 22:34:34

标签: python-2.7 xpath web-scraping scrapy

使用带有scrapy的xpath进行刮擦我没有得到完整的URL

这是我正在查看的网址

使用scrapy shell

scrapy shell "http://www.ybracing.com/omp-ia01854-omp-first-evo-race-suit.html"

我从shell执行以下xpath选择

sel.xpath("//*[@id='Thumbnail-Image-Container']/li[1]/a//@href")

只获得一半的href

[<Selector xpath="//*[@id='Thumbnail-Image-Container']/li[1]/a//@href" data=u'http://images.esellerpro.com/2489/I/160/'>]

这是我在浏览器中看到的html片段

        <li><a data-medimg="http://images.esellerpro.com/2489/I/160/260/1/medIA01854-GALLERY.jpg" href="http://images.esellerpro.com/2489/I/160/260/1/lrgIA01854-GALLERY.jpg" class="cloud-zoom-gallery Selected" title="OMP FIRST EVO RACE SUIT" rel="useZoom: 'MainIMGLink', smallImage: 'http://images.esellerpro.com/2489/I/160/260/1/lrgIA01854-GALLERY.jpg'"><img src="http://images.esellerpro.com/2489/I/160/260/1/smIA01854-GALLERY.jpg" alt="OMP FIRST EVO RACE SUIT Thumbnail 1"></a></li>            

这里来自wget

<li><a data-medimg="http://images.esellerpro.com/2489/I/513/0/medIA01838_GALLERY.JPG" href="http://images.esellerpro.com/2489/I/513/0/lrgIA01838_GALLERY.JPG" class="cloud-zoom-gallery Selected" title="OMP DYNAMO RACE SUIT" rel="useZoom: 'MainIMGLink', smallImage: 'http://images.esellerpro.com/2489/I/513/0/lrgIA01838_GALLERY.JPG'"><img src="http://images.esellerpro.com/2489/I/513/0/smIA01838_GALLERY.JPG" alt="OMP DYNAMO RACE SUIT Thumbnail 1" /></a></li>            

我尝试过改变我的xpath以获得相同但仍然得到相同的结果

造成这种情况的原因是什么,我可以做些什么来解决它想要了解而不是某人只是为我纠正我的xpath

关于页面本身的一些想法我禁用了javascript来查看js是否生成了一半的url但是没有。我还用wget下载了页面,以确认orriginal html中的网址是否完整

我没有测试任何其他版本,但我使用scrapy 1.2.1 on 2.7 in centos 7

我用google搜索,但却找不到因为javascript动态生成数据而无法获取数据的人,但我的数据是在html中

1 个答案:

答案 0 :(得分:3)

使用

sel.xpath("//*[@id='Thumbnail-Image-Container']/li[1]/a//@href")

您将获得Selector个实例的列表,其中data字段仅显示其所有内容的前几个字节(因为它可能很长)。

要将内容检索为字符串(而不是Selector实例),您需要使用.extract.extract_first之类的内容:

>>> print(sel.xpath("//*[@id='Thumbnail-Image-Container']/li[1]/a//@href").extract_first())
http://images.esellerpro.com/2489/I/160/260/1/lrgIA01854-GALLERY.jpg