运行Web scraper程序时出现“线程中的异常”主“java.lang.NullPointerException”错误

时间:2013-10-12 18:08:08

标签: java web screen-scraping jsoup

我对网络抓取相当新,对Java知之甚少。

每次运行此代码时,都会收到错误:

Exception in thread "main" java.lang.NullPointerException

    at sws.SWS.scrapeTopic(SWS.java:38)
    at sws.SWS.main(SWS.java:26)
Java Result: 1
BUILD SUCCESSFUL (total time: 0 seconds)

我的代码是:

import java.io.*;

import java.net.*;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

public class SWS
{

    /**
     * @param args the command line arguments
     */
    public static void main(String[] args)
    {
        scrapeTopic("wiki/Python");

    }

    public static void scrapeTopic(String url)
    {
        String html = getUrl("http://www.wikipedia.org/" + url);



        Document doc = Jsoup.parse(html);

        String contentText = doc.select("#mw-content-text > p").first().text();

        System.out.println(contentText);


    }


    public static String getUrl(String Url)
    {
        URL urlObj = null;

        try 
        {
            urlObj = new URL(Url);

        }

        catch(MalformedURLException e)
        {
            System.out.println("The url was malformed");

            return "";
        }


        URLConnection urlCon = null;

        BufferedReader in = null;

        String outputText = "";

        try
        {
            urlCon = urlObj.openConnection();

            in = new BufferedReader(new InputStreamReader(urlCon.getInputStream()));
             String line = "";

             while ((line = in.readLine()) != null)
             {
                 outputText += line;

             }

             in.close();
        }

         catch(IOException e)
         {
             System.out.println("There was a problem connecting to the url");

             return "";

         }

        return outputText;



    }

}

我现在一直盯着我的屏幕,需要帮助!

提前致谢。

3 个答案:

答案 0 :(得分:4)

在以下代码中:

 String contentText = doc.select("#mw-content-text > p").first().text()

如果doc.select("#mw-content-text > p")找不到与查询匹配的任何元素并返回 元素,则在此元素上调用first()应该给出一个NullPointerException

检查Element.selectElements.first()

的jsoup文档页面

答案 1 :(得分:0)

在这一行

doc.select("#mw-content-text > p").first().text();

你的doc.select显然没有找到任何东西,所以它返回null。然后在null上调用first()方法,这就是为什么它以错误结束。

答案 2 :(得分:0)

您的代码完全可以正常使用。

为了调试和诊断其他答案是否存在可能的错误,您可能会使用一些临时变量并在调试器中逐步执行代码。

public static void scrapeTopic(String url)
{
    String html = getUrl("http://www.wikipedia.org/" + url);
    Document doc = Jsoup.parse(html);

    Elements select = doc.select("#mw-content-text > p");
    Element first = select.first();
    String contentText = first.text();

    System.out.println(contentText);
}