从URL获取文本

时间:2013-12-15 17:54:15

标签: java html proxy jsoup

我正在尝试使用Jsoup获取URL的所有文本,这是代码:

Document doc = Jsoup.connect(Url).get();
System.out.println(doc.text());

但问题是,我尝试过的所有网址都不能正常工作...... 我需要从网页上获取所有文本(解析HTML),因为我正在使用套接字实现代理,我需要连接到URL,然后找到所选单词,如果它存在,我需要阻止提到的URL ,如果它不存在,则将网页返回给浏览器。

还有其他方法可以从网页上获取所有文字吗?

谢谢!

1 个答案:

答案 0 :(得分:0)

如果我理解得当,你想要一个网页上的所有文字,对吧?此代码应该从网页上获取所有文本。

  import org.jsoup.*;
  import org.jsoup.nodes.*;
  import org.jsoup.select.*;

  public class Getdata {
    public Getdata() {
      try {
           String url = "http://stackoverflow.com/questions/20597755/get-text-from-url";
           Document doc = Jsoup.connect(url).get();
           Elements element = doc.select("p");

           for (Element t : element) {
             System.out.println(t.text());
           }

         } catch (Exception ex) {
           System.err.println(ex);

      }
}

public static void main(String[] args) {
    new Getdata();

 }
   } 

感谢。