如何阅读网页的某些部分并将其文本存储在Excel文件中

时间:2012-12-23 09:14:40

标签: java html webpage html-content-extraction

我已经通过网站复印机软件下载了一些网站。我想从所有页面中提取一些信息。

假设有很多产品页面,我想从所有页面只收集产品信息并将其存储在excel文件中。

我想知道这样做的可行方法。我的朋友告诉我,他可以编写一些脚本并实现它,但我不明白任何脚本如何解决这个问题。

是否有任何免费软件或任何可以执行此任务的代码。我非常了解java,如果我能通过编写代码来实现它,那么请提供一些指导。

2 个答案:

答案 0 :(得分:1)

您可能不想使用Java而是使用JavaScript,因为产品页面是网页,因此您可能更熟悉使用浏览器本地语言。如果是我,我会这样做:

1 - 编写一个加载所有页面的主JS脚本,一次一个。

2 - 对于每个页面,选择该产品信息(可能使用$('#productID')等等。)

3 - 将它们放入JSON格式并使用某些第三方库导出为CSV(或者自己编写一些代码)。一个这样的库的示例:http://www.zachhunter.com/2011/06/json-to-csv/

答案 1 :(得分:0)

查看JSoup,一个用于HTML文档的Java库。

您可以在他们的网站上找到大量文档。

您需要了解CSS选择器以从文档中选择特定元素,示例请参阅http://jsoup.org/cookbook/extracting-data/selector-syntax

然后将收集的数据作为逗号分隔值写入可以加载到Excel中的文本文件中。