应用错误收集

时间：2012-12-23 09:14:40

标签： java html webpage html-content-extraction

我已经通过网站复印机软件下载了一些网站。我想从所有页面中提取一些信息。

假设有很多产品页面，我想从所有页面只收集产品信息并将其存储在excel文件中。

我想知道这样做的可行方法。我的朋友告诉我，他可以编写一些脚本并实现它，但我不明白任何脚本如何解决这个问题。

是否有任何免费软件或任何可以执行此任务的代码。我非常了解java，如果我能通过编写代码来实现它，那么请提供一些指导。

答案 0 :(得分：1)

您可能不想使用Java而是使用JavaScript，因为产品页面是网页，因此您可能更熟悉使用浏览器本地语言。如果是我，我会这样做：

1 - 编写一个加载所有页面的主JS脚本，一次一个。

2 - 对于每个页面，选择该产品信息（可能使用$（'＃productID'）等等。）

3 - 将它们放入JSON格式并使用某些第三方库导出为CSV（或者自己编写一些代码）。一个这样的库的示例：http://www.zachhunter.com/2011/06/json-to-csv/

答案 1 :(得分：0)

查看JSoup，一个用于HTML文档的Java库。

您可以在他们的网站上找到大量文档。

您需要了解CSS选择器以从文档中选择特定元素，示例请参阅http://jsoup.org/cookbook/extracting-data/selector-syntax

然后将收集的数据作为逗号分隔值写入可以加载到Excel中的文本文件中。