使用javascript的高级Web页面I / O(类似于带有shell脚本的文件I / O)?

时间:2013-09-21 21:05:48

标签: javascript dom io screen-scraping

我正在尝试做什么(请不要另外提出建议,我知道更多传统解决方案)轻松从网页(如图片)中抓取数据,而无需编写任何特定于网站的代码(例如,以获得最大的代码)特定URL处的图像)。这只是一种可能性。

我梦寐以求的(其他用途) 我知道你可以使用许多使用DOM模型的API。但肯定有人想到更高层次的东西?关于shell脚本最吸引人的地方之一是你可以使用基本命令对基本文件I / O进行数据操作:Grep plus正则表达式(awk,sed,perl)可以立即让你联系基于文件的数据的金矿。什么shell脚本是文件,javascript应该是网页。但是,当您通过标签和属性解决问题时,代码会变得非常混乱。如果有这样的API会不会很棒?

# determine the biggest image by checking images[0].height etc.
$("< http://www.cnn.com/man-has-three-eyes.html").images[0].url

是否尝试过这样的API?我猜不是。如果没有,是什么让这在技术上不切实际?如果是这样,什么样的javascript框架最接近提供这个?

(如果没有,我应该在品牌名称“Scrapy Eye”或“ScrAPI”或其他东西上申请商标保护!)

0 个答案:

没有答案