Question

长时间观看者，第一次海报！

我遇到了一些麻烦...我注意到现在抓取网页时显然抓取鼠标悬停文本（http://support.import.io/forums/199278-ideas-forum/suggestions/10368834-website-elements-displayed-on-mouseover），但我无法弄清楚如何做到这一点！

我正在尝试执行此操作的页面类型（我将用于在许多类似页面上进行抓取）：https://www.kickstarter.com/profile/1874304670我想要圆圈图的每个部分中的数字，以及图表中这些类别的标题。此文本仅在鼠标悬停时出现。在制作我的抓取工具时，我无法显示此文本，更不用说抓取数据了。

或者，如果我可以使用页面源来提取数据，我可以获取信息，因为在其他代码将其更改为图形之前，数据就在那里。但是，似乎这个功能还没有爬虫，只有提取器（我能说的最好）。

有关如何直接执行此操作的任何帮助？或者可能有某种解决方法？也许import.io不是我应该使用的东西，但如果我能用它会很棒！

提前致谢！

Answer 1

没有＆＃34;开箱即用＆＃34;在import.io中执行此操作的方法，如果您对JS有所了解，则有一个解决方法...

如果您使用自定义xpath .//*[@id='small_circle']，则可以获取包含所需信息的json数据。

它采用以下格式：

[...{
"category_id":26,
"label":"Crafts",
"projects_backed":0,
"color":"rgba(0,0,0,0.0)",
"path":"/profile/1874304670?category_id=26&ref=wheel",
"data":1
}, 
...
]

您可以在抓取后进行一些后处理，以过滤掉您想要的相关部分，或者使用JS解析它，然后只需使用＆＃34;标签＆＃34;和＆＃34; projects_backed＆＃34;密钥。

使用带有鼠标悬停文本的import.io

1 个答案: