从答案网站获取信息

时间:2014-02-26 11:50:17

标签: java string web

首先请允许我说首选语言是Java,但我知道大多数语言都可以接受任何语言。

问题:假设我有一个链接,http://ca.answers.yahoo.com/question/index?qid=20140218053709AAM0WfI(此示例的随机链接)。是否有任何可能的方法来获取问题的标题并将其存储在一个字符串中,然后得到他键入的问题的描述(这里也称为此部分)并将其存储在一个单独的字符串中?我知道如何从网站上抓取字符串,但我遇到的问题是我一直在抓答案以及问题。

其他细节。

  1. 我不会提前知道具体的雅虎答案,所以代码 需要能够处理所有基本问题(也就是没有问题的问题) 图片或其他复杂情况)。
  2. 代码需要适用于所有问题/答案论坛,而不仅仅是雅虎。
  3. 不要求任何人编写完整的代码或任何内容,我知道这不是网站的工作方式。是否有任何特定功能可以轻松获取此信息?

1 个答案:

答案 0 :(得分:0)

你想要的是数据抓取。你可以使用Beautiful Soup来达到这个目的。下面是其中一个教程的链接。

http://kochi-coders.com/2011/05/30/lets-scrape-the-page-using-python-beautifulsoup/