解析网页以提取内容

时间:2016-10-18 23:50:44

标签: javascript java html css web-crawler

我想设计一个使用java的抓取工具,抓取网页并提取网页的某些内容。我该怎么做?我是新手,我需要指导才能开始设计抓取工具。

例如,我想访问内容"红色是我最喜欢的颜色"来自嵌入在下面的网页:

< div> 红色是我最喜欢的颜色 < / div>

1 个答案:

答案 0 :(得分:0)

建议读数

静态页面:

请注意,许多页面将在加载后使用JavaScript 动态创建内容。对于这种情况,'静态页面'方法不会有帮助,您需要在" Web自动化"中搜索工具。类别。
Selenium就是这样一个工具集。您可以命令浏览器使用通用浏览器打开和导航页面,您甚至可以使用无头浏览器' (没有用户界面)使用phantomjs

祝你好运,你面前有很多阅读和编码。

[为例子编辑]

此技术称为网页抓取 - 将其与google一起使用。以下是我搜索结果的示例,我不提供任何保证或认可

对于"静态网页报废" - 这里an example using jsoup

对于"动态页面" - 这是example using Selenium