我正在尝试构建这个应用程序,当提供一个填充了isbn数字的.txt文件时,只需将isbn附加到网址www.isbn.nu/your即可访问isbn编号的isbn.nu页面isbn number 。
在提取页面后,我想扫描它以获取有关该书的信息,并将其存储在excel文件中。
我正在考虑在Java中创建url的文件流,但我不确定如何从html页面中提取信息。存储信息将使用JExcel Java包完成。
我最好的猜测是使用javascript来提取信息,但我不知道如何从我的java程序中调用javascript。
我的想法是否合情合理?如果没有,你们建议我做什么。
我的目标:从html页面检索信息并将其存储在文本文件中每个ISBN的excel文件中。文本文件中可以包含任意数量的isbn。
这不是家庭作业btw,我只是为一个向苏丹捐赠书籍的组织这样做。目前他们有5人手动编目这些书,我就是其中之一。
答案 0 :(得分:3)
Jsoup是一个用于解析网页并从中获取数据的有用工具。你可以用Java做到这一点很容易。
您可以解析文本文件,使用字符串构建URL,使用JSoup发送它,然后使用JSoup使用页面上的html标记解析信息。然后你可以随意存储它。如果你对Java更熟悉,你根本不需要使用Javascript。
阅读页面并使用Jsoup解析它的示例:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");
答案 1 :(得分:2)
使用您load
链接的div(例如,如何http://api.jquery.com/load/)。
在加载完成后,您可以检查网页中使用的div或spans的名称,并使用val
(http://api.jquery.com/val/)或text
获取该内容({ {3}})
答案 2 :(得分:1)
以下是www.isbn.nu主页的文字:
请注意,isbn.nu是专为个人手动搜索而设计的。它既不是自动检索的信息资源,也不是公司的研究工具。 isbn.nu保留根据过多请求拒绝访问的权利。
为什么不使用免费的Google图书API来返回XML格式的图书详情。 Java中有许多可用于解析XML提要的类,可以让您的生活更轻松。
有关详细信息,请参阅http://code.google.com/apis/books/。
答案 3 :(得分:0)
以下是所需的步骤:
您可以使用 guide 。
阅读HTML信息答案 4 :(得分:0)
一个简单的解决方案可能是使用像ImportXML(URL,path-expression)
这样的Google文档电子表格功能。
此处提供更多信息和示例: