从HTML文件中收集数据

时间:2013-07-10 13:08:35

标签: java html web-scraping

作为工作的一部分,我必须排序this page并收集有关每所学校的学校管理员,地址和县的信息。我在java中做了大量的工作,所以我想如果我要尝试做一些事情,那应该是在java中。

然而,我之前没有做过这样的事情,而且我对应该从哪里开始感到有些困惑。如果有人可以帮助我完成我需要使用的课程,并提供一些关于我如何查看HTML代码以完成所有这些操作的信息,那就太棒了。感谢。

3 个答案:

答案 0 :(得分:4)

您需要实现一个scraper,即一个从HTML中抓取数据的应用程序。

我首先要研究一个像jsoup(http://jsoup.org/)这样体面的刮刀库,看看你是否可以用它来完成这项工作。

在本质上你会得到类似的东西:

Document doc = Jsoup.connect("http://www.ncpublicschools.org/...").get();
Elements schools = doc.select("div.indenter p span.colorText2 a");

根据需要继续应用选择规则来收集所需的数据。

答案 1 :(得分:0)

您可以使用java.util.regex;正则表达式非常有用且易于使用

答案 2 :(得分:0)

Selenium它可以很好地满足你想做的事情。我使用它来开发具有自动化测试的应用程序,但它也适用于你。