Question

我想从某个网页中提取事件信息。但我只得到一小部分内容而不是整个内容。只有当我点击“阅读更多”链接或点击该特定链接时，我才能获得整个数据。所以我注意到url中的id只是在改变，但我不知道如何从url中提取id。如果我将一个地方指定为i / p并在程序中传递其ID，那么它将更容易。我怎样才能访问id？

Answer 1

要获取每个事件的完整详细信息，您必须解析this链接以获取每个事件。从每个此类节点，您需要找到类more的链接并按照该链接。从您获得的新页面中，您需要解析html以获取事件详细信息文本。

（您可以通过查看页面的html或在浏览器中使用Web检查器来获取这些类名等）

基本逻辑将是：

 root = fetch page with url given above
 L = list of nodes with class newsbrdr on root
 for each node N in L:
      a_node = child of N with class 'more'
      p = fetch page at a_node's href
      extract the paragraph text from element on p with class 'newsdesc'

查找特定页面的ID

1 个答案: