如何在html链接的网页中搜索和复制特定字符串

时间:2014-01-17 01:31:33

标签: java php python html perl

让我直接描述问题。如果您转到以下链接,您将看到包含Aesop编写的故事的html链接列表。每个故事都包含一个道德陈述。我需要复制和存储只包含“Aesops Fable道德的字符串:”我需要将结果作为由空格或换行分隔的序列。

http://www.taleswithmorals.com/

我该怎么办?在这种情况下哪个平台更容易使用?你能指导我吗?

2 个答案:

答案 0 :(得分:0)

我使用python和mechanize(一个web机器人)做了类似的事情。

您也可以使用urllib并解析响应,因为您知道要查找的确切字符串。

我认为Python非常适合这种情况。

答案 1 :(得分:0)

http://docs.oracle.com/javase/6/docs/api/java/lang/String.html

Java具有相当高级的本机字符串处理功能。如果我试图在java中这样做,我会做的是indexOf(String)方法,它返回该字符串中特定子字符串的第一个索引。使用它,您可以查找表示链接的html href标记(查看页面的HTML源代码)。如果你不确定如何找到HTML文件本身,这里的How do you Programmatically Download a Webpage in Java是一个很好的解释,说明如何使用java提取HTML文件。 然后,您可以浏览每个单独页面的源代码并找到“Aesop's Fable的道德:”子字符串,然后使用Java的PrintWriter立即保存字符串,后者可以将字符串写入文件:http://docs.oracle.com/javase/7/docs/api/java/io/PrintWriter.html < / p>

希望这有帮助!