作为工作的一部分,我必须排序this page并收集有关每所学校的学校管理员,地址和县的信息。我在java中做了大量的工作,所以我想如果我要尝试做一些事情,那应该是在java中。
然而,我之前没有做过这样的事情,而且我对应该从哪里开始感到有些困惑。如果有人可以帮助我完成我需要使用的课程,并提供一些关于我如何查看HTML代码以完成所有这些操作的信息,那就太棒了。感谢。
答案 0 :(得分:4)
您需要实现一个scraper,即一个从HTML中抓取数据的应用程序。
我首先要研究一个像jsoup(http://jsoup.org/)这样体面的刮刀库,看看你是否可以用它来完成这项工作。
在本质上你会得到类似的东西:
Document doc = Jsoup.connect("http://www.ncpublicschools.org/...").get();
Elements schools = doc.select("div.indenter p span.colorText2 a");
根据需要继续应用选择规则来收集所需的数据。
答案 1 :(得分:0)
您可以使用java.util.regex;正则表达式非常有用且易于使用
答案 2 :(得分:0)
Selenium它可以很好地满足你想做的事情。我使用它来开发具有自动化测试的应用程序,但它也适用于你。