如何在JAVA中使用htmlparsing和curl来完成这项任务......?

时间:2009-07-24 01:41:29

标签: java search parsing text curl

我正在尝试编写一个程序,该程序从文本文件中获取公司名称,并在搜索引擎网站上搜索它们(SEC的Edgar搜索)。每次搜索通常会提供1-10个独特的搜索结果链接,因此我想使用curl点击具有相关公司名称的链接。链接页面有一个简短的摘要,其中包含“公司注册状态:”,然后是州名。我希望解析州名。我无法理解如何使用HTML解析和卷曲及其类。我将不胜感激任何可能的帮助,例如简要的步骤大纲或任何建议。感谢。

1 个答案:

答案 0 :(得分:1)

假设HTML非常基本,请使用Mozilla Java HTML Parser之类的内容。 getting started guide将为您提供有关创建DOM的更多详细信息。 Java有builtin APIs用于从网上下载内容,这些对您来说可能就足够了(而不是使用“curl”)。

拥有DOM后,您可以使用标准DOM API来导航所需的链接和项目。