Question

作为工作的一部分，我必须排序this page并收集有关每所学校的学校管理员，地址和县的信息。我在java中做了大量的工作，所以我想如果我要尝试做一些事情，那应该是在java中。

然而，我之前没有做过这样的事情，而且我对应该从哪里开始感到有些困惑。如果有人可以帮助我完成我需要使用的课程，并提供一些关于我如何查看HTML代码以完成所有这些操作的信息，那就太棒了。感谢。

Answer 1

您需要实现一个scraper，即一个从HTML中抓取数据的应用程序。

我首先要研究一个像jsoup（http://jsoup.org/）这样体面的刮刀库，看看你是否可以用它来完成这项工作。

在本质上你会得到类似的东西：

Document doc = Jsoup.connect("http://www.ncpublicschools.org/...").get();
Elements schools = doc.select("div.indenter p span.colorText2 a");

根据需要继续应用选择规则来收集所需的数据。

Answer 2

您可以使用java.util.regex;正则表达式非常有用且易于使用

Answer 3

Selenium它可以很好地满足你想做的事情。我使用它来开发具有自动化测试的应用程序，但它也适用于你。