来自其他域名的正则表达式?

时间:2012-07-15 01:09:43

标签: javascript html regex

我正在尝试制作一个自动流程,以便从我的工作网络上的网站中检索一些信息。

var duderegex = new RegExp("Title for Mr. [^\n]+","m");
var dude = duderegex.exec(input);

到目前为止,这么好。问题是我在我的工作计算机上写这个,可能无法说服任何人将其存储在与托管它的网站相同的域中。所以从技术上讲,它就是XSS。而且我宁愿不必批准安装任何非常时髦的东西(所以我不能保证JQuery或者更容易复制/粘贴的PowerShell)。

下载文件后通过网页下载文件并没有任何问题,但是点击另存为... ...

有没有人有任何可行的解决方案来运行来自不同域的HTML源代码?我不需要将它限制为Javascript,但是让PHP工作,例如,可能需要比我更多的资源。

一位评论者要求澄清,所以这里有。假设我每天必须联系50个版权所有者(它与知识产权无关,但它会起作用)。现在,我有一张表格带我去

(1) http://foo.bar/form.htm?action=search&type=ArtistAlbum&Artist=Beatles&Album=White

并重定向到

(2) http://foo.bar/form.htm?id=4578469

从那里,我点击一个下拉列表(让我们说一下轨道列表),这会带我去

(3) http://foo.bar/form.htm?id=4578469&track=7

我有一个按字母顺序排列的每个人都在轨道上工作,他们的代理人和法律代表。我只对三个名字感兴趣,即拥有歌词版权的人的姓名,拥有旋律版权的人的姓名,以及拥有该录音版权的人的姓名。所以我必须三次搜索文件。

由于每个名称都有一个标准的标题,我应该能够编写一个要求艺术家和专辑的脚本,生成到(1)的链接,从(2)的url复制param或使用正则表达式从链接到(3)找到它,加载页面(3),然后为字符串上的正则表达式生成输出

/Lyrics Copyright Holder [^\n]+/
/Melody Copyright Holder [^\n]+/
/Performance Copyright Holder [^\n]+/

我可以下载所有文件(这需要时间),但信息有时会发生变化,我想确保我总是提取最新信息。

但我似乎无法绕过XSS位。

1 个答案:

答案 0 :(得分:0)

你没有说出你真正试图解决的问题,所以有点难以知道哪些解决方案最适合你,但是你可以编写适用于浏览器插件中任何网页的javascript (例如在Chrome或Firefox中)或使用浏览器之外的脚本语言(Python,Javascript,PHP等),您可以在其中加载页面内容,然后使用语言工具操作内容。