我想从某个网页中提取事件信息。但我只得到一小部分内容而不是整个内容。只有当我点击“阅读更多”链接或点击该特定链接时,我才能获得整个数据。所以我注意到url中的id只是在改变,但我不知道如何从url中提取id。如果我将一个地方指定为i / p并在程序中传递其ID,那么它将更容易。我怎样才能访问id?
答案 0 :(得分:0)
要获取每个事件的完整详细信息,您必须解析this链接以获取每个事件。从每个此类节点,您需要找到类more
的链接并按照该链接。从您获得的新页面中,您需要解析html以获取事件详细信息文本。
(您可以通过查看页面的html或在浏览器中使用Web检查器来获取这些类名等)
基本逻辑将是:
root = fetch page with url given above
L = list of nodes with class newsbrdr on root
for each node N in L:
a_node = child of N with class 'more'
p = fetch page at a_node's href
extract the paragraph text from element on p with class 'newsdesc'