从网站上读取信息并存储在excel文件中

时间:2012-02-02 23:54:32

标签: java javascript

我正在尝试构建这个应用程序,当提供一个填充了isbn数字的.txt文件时,只需将isbn附加到网址www.isbn.nu/your即可访问isbn编号的isbn.nu页面isbn number

在提取页面后,我想扫描它以获取有关该书的信息,并将其存储在excel文件中。

我正在考虑在Java中创建url的文件流,但我不确定如何从html页面中提取信息。存储信息将使用JExcel Java包完成。

我最好的猜测是使用javascript来提取信息,但我不知道如何从我的java程序中调用javascript。

我的想法是否合情合理?如果没有,你们建议我做什么。

我的目标:从html页面检索信息并将其存储在文本文件中每个ISBN的excel文件中。文本文件中可以包含任意数量的isbn。

这不是家庭作业btw,我只是为一个向苏丹捐赠书籍的组织这样做。目前他们有5人手动编目这些书,我就是其中之一。

5 个答案:

答案 0 :(得分:3)

Jsoup是一个用于解析网页并从中获取数据的有用工具。你可以用Java做到这一点很容易。

您可以解析文本文件,使用字符串构建URL,使用JSoup发送它,然后使用JSoup使用页面上的html标记解析信息。然后你可以随意存储它。如果你对Java更熟悉,你根本不需要使用Javascript。

阅读页面并使用Jsoup解析它的示例:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

答案 1 :(得分:2)

使用您load链接的div(例如,如何http://api.jquery.com/load/)。

在加载完成后,您可以检查网页中使用的div或spans的名称,并使用valhttp://api.jquery.com/val/)或text获取该内容({ {3}})

答案 2 :(得分:1)

以下是www.isbn.nu主页的文字:

  

请注意,isbn.nu是专为个人手动搜索而设计的。它既不是自动检索的信息资源,也不是公司的研究工具。 isbn.nu保留根据过多请求拒绝访问的权利。

为什么不使用免费的Google图书API来返回XML格式的图书详情。 Java中有许多可用于解析XML提要的类,可以让您的生活更轻松。

有关详细信息,请参阅http://code.google.com/apis/books/

答案 3 :(得分:0)

以下是所需的步骤:

  1. 创建CURL请求(您可以使用多个curl请求)
  2. 获取正文数据
  3. 解析数据
  4. 制作excel文件
  5. 您可以使用 guide

    阅读HTML信息

答案 4 :(得分:0)

一个简单的解决方案可能是使用像ImportXML(URL,path-expression)这样的Google文档电子表格功能。

此处提供更多信息和示例: