我希望获得"中的所有链接;另请参阅"维基百科文章中的部分,但python(Wikipedia documentation)的维基百科API并未提供这些信息。即使我使用" page"函数来获取页面的整个内容以提取"参见"部分,该部分通常是空的! (如果你用浏览器看一下那个网页,它就不会是空的!)。
所以,我认为,提取这些信息的唯一方法是解析HTML页面。我们赞赏任何帮助我在不解析HTML页面的情况下提取这些信息的建议。
答案 0 :(得分:1)
对我来说似乎是一个合理的问题。无论如何,您可能仍然需要解析HTML,但RESTBase API提供了一个'移动部分'按节标题对输出HTML进行分组的端点。 API端点如下所示:
https://en.wikipedia.org/api/rest_v1/page/mobile-sections/Facebook
API响应包含一个带有'部分的对象'像这样的财产
"remaining": {
"sections": [
{
"id": 39,
"text": ...,
"toclevel": 1,
"line": "See also",
"anchor": "See_also"
},
...
]
}
通过该响应,您可以从line
属性与字符串&#34匹配的部分中选择HTML;另请参阅"。