使用java中的关键字解析HTML页面

时间:2016-07-18 14:37:45

标签: java html-parsing jsoup html-parser

我有近100家公司的网站 contact_us 页面链接。我必须收集每个 contact_us 页面中所有公司的位置。我正在尝试使用Jsoup,但如果我实现使用Jsoup将特定于一家公司。我必须实现通用实现。

我正在考虑以下策略:

  • 我们在哪里找到办公室,总部等关键词。我想读一下那块。

例如,请参阅此链接:http://www.directenergysolar.com/company/contact-us/

在此页面中,我必须收集所有地址。

有没有更好的方法来实现这个?

1 个答案:

答案 0 :(得分:0)

你瞄准的目标是明确可达的。 Jsoup只是最终解决方案的一小部分。

基本上,我可以在这里看到四个选项:

  • 群众采购
  • 机器学习
  • Jsoup
  • 上述三种方法的混合

有关选项的详细信息,请参阅"extracting info from random webpage using JSOUP"答案。