让我直接描述问题。如果您转到以下链接,您将看到包含Aesop编写的故事的html链接列表。每个故事都包含一个道德陈述。我需要复制和存储只包含“Aesops Fable道德的字符串:”我需要将结果作为由空格或换行分隔的序列。
http://www.taleswithmorals.com/
我该怎么办?在这种情况下哪个平台更容易使用?你能指导我吗?
答案 0 :(得分:0)
我使用python和mechanize(一个web机器人)做了类似的事情。
您也可以使用urllib并解析响应,因为您知道要查找的确切字符串。
我认为Python非常适合这种情况。
答案 1 :(得分:0)
http://docs.oracle.com/javase/6/docs/api/java/lang/String.html
Java具有相当高级的本机字符串处理功能。如果我试图在java中这样做,我会做的是indexOf(String)方法,它返回该字符串中特定子字符串的第一个索引。使用它,您可以查找表示链接的html href标记(查看页面的HTML源代码)。如果你不确定如何找到HTML文件本身,这里的How do you Programmatically Download a Webpage in Java是一个很好的解释,说明如何使用java提取HTML文件。 然后,您可以浏览每个单独页面的源代码并找到“Aesop's Fable的道德:”子字符串,然后使用Java的PrintWriter立即保存字符串,后者可以将字符串写入文件:http://docs.oracle.com/javase/7/docs/api/java/io/PrintWriter.html < / p>
希望这有帮助!