长时间观看者,第一次海报!
我遇到了一些麻烦...我注意到现在抓取网页时显然抓取鼠标悬停文本(http://support.import.io/forums/199278-ideas-forum/suggestions/10368834-website-elements-displayed-on-mouseover),但我无法弄清楚如何做到这一点!
我正在尝试执行此操作的页面类型(我将用于在许多类似页面上进行抓取):https://www.kickstarter.com/profile/1874304670我想要圆圈图的每个部分中的数字,以及图表中这些类别的标题。此文本仅在鼠标悬停时出现。在制作我的抓取工具时,我无法显示此文本,更不用说抓取数据了。
或者,如果我可以使用页面源来提取数据,我可以获取信息,因为在其他代码将其更改为图形之前,数据就在那里。但是,似乎这个功能还没有爬虫,只有提取器(我能说的最好)。
有关如何直接执行此操作的任何帮助?或者可能有某种解决方法?也许import.io不是我应该使用的东西,但如果我能用它会很棒!
提前致谢!
答案 0 :(得分:3)
没有"开箱即用"在import.io中执行此操作的方法,如果您对JS有所了解,则有一个解决方法...
如果您使用自定义xpath .//*[@id='small_circle']
,则可以获取包含所需信息的json数据。
它采用以下格式:
[...{
"category_id":26,
"label":"Crafts",
"projects_backed":0,
"color":"rgba(0,0,0,0.0)",
"path":"/profile/1874304670?category_id=26&ref=wheel",
"data":1
},
...
]
您可以在抓取后进行一些后处理,以过滤掉您想要的相关部分,或者使用JS解析它,然后只需使用"标签"和" projects_backed"密钥。