如何处理我的应用程序内的网页内容

时间:2011-06-23 17:37:34

标签: java xml jsp jsoup

我的系统(我正在使用JSP)处理网络上的现有网站。我的应用程序应该能够显示该网站的页面,并进行一些更改,例如突出显示某些单词。

所以我的程序将会从该网站带来页面并突出显示某些特定单词,然后再次向我的系统用户显示带有突出显示单词的页面。

我怎么能用java做到这一点?

3 个答案:

答案 0 :(得分:0)

您可以使用Tika获取HTML内容(或任何其他工具,如果您已经在使用某些内容)。 然后使用<span/>突出显示需要突出显示的文本片段。渲染页面。

考虑不同的标记非常重要。

另外,更简单的解决方案是使用javascript(特定的jquery),这将使整个过程更简单。 jQuery library

答案 1 :(得分:0)

我会保存XPath或其他所需DOM节点的标识,并将其用于一些 JavaScript 代码的参数化,这些代码可以由Java注入,为什么不呢。

或者你可以在你的单词周围注入span标签,给它们一些id并为这些id注入CSS。这需要一些常规表达,不需要库。

答案 2 :(得分:0)

您显然正在尝试在原始页面和操作页面之间构建过滤器。因此,在JSP中,您将原始页面作为文本阅读。如果它在您自己的服务器上,您只需打开文件并阅读即可。或者您可能需要创建一个Socket以通过Internet读取它。无论哪种方式,您将其作为文本读取,插入所需的任何其他标记,然后将此标记版本编写为JSP的输出。您的JSP本身没有实际内容,所有输出都将在&lt;%和%&gt;内生成。 with out.println语句。 (JSP不是这里最自然的选择,你可能想要研究servlet,但是无论如何。没有实际文本的JSP没有任何本质上的错误。)