针对DOM运行数据库存储的RegEx

时间:2013-07-31 03:04:15

标签: javascript jquery regex database screen-scraping

我有一个问题,关于在我走到中途之前如何处理某个场景,并发现它不是最好的选择。

我为一家大公司工作,该公司拥有一个团队,可以为团队成员创建使用非官方企业工具的工具。我们无法直接访问数据库,只需访问内部服务器即可存储我们运行的文件,并能够使用javascript等访问主站点(相同域名)。

我正在研究的是一个工具,其中包含大量选项,允许您选择我将在页面上调用“数据点”。

有“帐户状态,余额,姓名,电话号码,电子邮件等”之类的内容,并将其保存到Excel工作表中。

因此,您输入帐号,选择所需内容,然后使用IE对象导航到页面并抓取您请求的数据。

我的问题如下..

我想让刮削部分以其工作方式非常动态。我希望能够动态添加新的数据点。

我的目标或想法是存储使用“数据点选项”获取表格中特定数据所需的正则表达式。

如果我选择“Name”,它知道数据库中name的表达式再次运行DOM。 在Javascript / Jquery中创建该类型函数的最佳方法是什么? 我需要将一个Regex传递给一个函数,让它针对DOM运行然后返回结果。

我觉得有些事情需要超过1步才能获得信息等。

我只是试图想出最好的方法来处理它,而不必将200+表达式硬编码到文件中,因为页面可能会更新并需要更改。

有什么想法吗?

1 个答案:

答案 0 :(得分:0)

IRobotSoft刮刀可能是您正在寻找的工具。查看此论坛,看看问题是否与您正在做的相似:http://irobotsoft.org/bb/YaBB.pl?board=newcomer。它是免费的。

它使用的不是正则表达式,而是一种称为HTQL的语言,它可能更适合提取网页。它还支持正则表达式,但不支持主要语言。

它通过可视化界面很好地组织您的所有操作,因此您可以动态地组合操作或任务以满足不断变化的需求。