我想设计一个使用java的抓取工具,抓取网页并提取网页的某些内容。我该怎么做?我是新手,我需要指导才能开始设计抓取工具。
例如,我想访问内容"红色是我最喜欢的颜色"来自嵌入在下面的网页:
< div> 红色是我最喜欢的颜色 < / div>
答案 0 :(得分:0)
建议读数
静态页面:
jsoup - HTML解析器和内容操作库
请注意,许多页面将在加载后使用JavaScript 动态创建内容。对于这种情况,'静态页面'方法不会有帮助,您需要在" Web自动化"中搜索工具。类别。
Selenium就是这样一个工具集。您可以命令浏览器使用通用浏览器打开和导航页面,您甚至可以使用无头浏览器' (没有用户界面)使用phantomjs。
[为例子编辑]
此技术称为网页抓取 - 将其与google一起使用。以下是我搜索结果的示例,我不提供任何保证或认可
对于"静态网页报废" - 这里an example using jsoup
对于"动态页面" - 这是example using Selenium