如何获取HTML内容包含javascript的内容?

时间:2010-11-17 04:16:40

标签: java http

我需要在网页上获取内容并通过URL阅读,但内容不包含javascript数据任何机构都可以帮我解决这个问题?例如:我想从URL获取bibtext内容'javascrip:http://portal.acm.org/citation.cfm?id=152610.152611&coll=DL&dl=GUIDE&CFID=111326695&CFTOKEN=18291914如何从(1)alt text

获取内容(2)

1 个答案:

答案 0 :(得分:2)

从快速观察中,我会做的是:

1 /获取此网页的内容:http://portal.acm.org/citation.cfm?id=152610.152611&coll=DL&dl=GUIDE&CFID=111326695&CFTOKEN=18291914

2 /使用正则表达式搜索'BibTeX'并在内容中找到以下字符串:

<li style="list-style:disc; display:inline; margin-bottom:0px;"><a href="javascript:ColdFusion.Window.show('theformats');ColdFusion.navigate('exportformats.cfm?id=152611&amp;expformat=bibtex','theformats');" class="small-link-text">BibTeX</a></li>

3 /使用另一个正则表达式:

exportformats.cfm?id=152611&amp;expformat=bibtex

4 /将其连接到网址(确保将&amp;解码为&amp;):

“http://portal.acm.org/”+“exportformats.cfm?id = 152611&amp; expformat = bibtex”

5 /捕获您正在寻找的内容。最终http://portal.acm.org/exportformats.cfm?id=152611&expformat=bibtex会为您提供内容。