我一直在使用YQL进行HTML抓取,但现在Yahoo已停止支持html表,因此我将其替换为htmlstring表(社区表)以及建议的其他参数here。
然而,我曾经搜索所有div并将它们作为数组返回,所以我可以遍历这些元素,现在当使用htmlstring时,我得到的结果是纯HTML,我无法用它做任何事情。
以下是现在的示例:http://i.imgur.com/vWJ65wo.jpg
我曾经能够循环遍历数组query.results.div
中的所有div。
答案 0 :(得分:0)
通过清理html并使用html2json来解决它。