如何阅读网页内容,而不是该页面的源代码?

时间:2012-05-02 17:53:54

标签: java html url

  

可能重复:
  How can I use translate.google.com/ to translate the string in Java program?

我想阅读网页的内容,而不是该网页的源代码。 内容意味着一些评论或一些行等。 EX: http://translate.google.com/#en|bn|I%20love%20life

从这个页面,我想收集翻译的行“আমিজীবনজীবনালবাসি” 我怎样才能在JAVA中找到它?

2 个答案:

答案 0 :(得分:0)

但您确实想要阅读源代码的内容,因为它包含您要查找的内容..

<span id="result_box" class="short_text" lang="bn"><span class="hps">আমি</span></span>

这是包含翻译内容的节点...如果您可以构建包含未翻译字符串的网址,捕获对该网址的响应,然后找到#result_box,您将获得内容

答案 1 :(得分:0)

我相信你可以通过HtmlUnit实现这一目标。查看方法DomNode#asText()