一般维基百科HTML结构

时间:2013-04-27 04:09:01

标签: python html wikipedia

维基百科的HTML标签是否有通用格式?即除了基础知识(头部,体位,身体等)之外,是否有特定的标签来分隔每个信息块?比方说,引言可能包含标记<p>,而第1,2,3节可能包含标记<s1>, <s2>, <s3>

我需要能够按部分区分内容。另外,我没有使用维基百科api获取此信息,只有Python。

1 个答案:

答案 0 :(得分:3)

作为维基百科的开关编辑,编辑不倾向于使用<p>标签,更不用说许多HTML标签了。事实上,他们遵循their own set of rules

MediaWiki几乎是HTML的替代品,但是一些HTML标签确实有效(即,<span>用于着色文本等)。此外,部分不是用HTML完成的。比较:

HTML:<h2>A header</h2>

MediaWiki:==A header==

如果你想从每个标题中获取内容,那么一定要使用他们的API。以下是有关通过API编辑页面的链接:http://www.mediawiki.org/wiki/API:Edit