查找特定页面的ID

时间:2014-02-19 06:51:49

标签: java jsoup web-crawler

我想从某个网页中提取事件信息。但我只得到一小部分内容而不是整个内容。只有当我点击“阅读更多”链接或点击该特定链接时,我才能获得整个数据。所以我注意到url中的id只是在改变,但我不知道如何从url中提取id。如果我将一个地方指定为i / p并在程序中传递其ID,那么它将更容易。我怎样才能访问id?

1 个答案:

答案 0 :(得分:0)

要获取每个事件的完整详细信息,您必须解析this链接以获取每个事件。从每个此类节点,您需要找到类more的链接并按照该链接。从您获得的新页面中,您需要解析html以获取事件详细信息文本。

(您可以通过查看页面的html或在浏览器中使用Web检查器来获取这些类名等)

基本逻辑将是:

 root = fetch page with url given above
 L = list of nodes with class newsbrdr on root
 for each node N in L:
      a_node = child of N with class 'more'
      p = fetch page at a_node's href
      extract the paragraph text from element on p with class 'newsdesc'