如何在MediaWiki网站上添加对全文PDF文件的引用

时间:2019-10-14 13:46:18

标签: mediawiki mediawiki-extensions

我有一个MediaWiki网站,该网站在自动索引的Web目录中还有大约1000个其他文件。我希望这些页面出现在MediaWiki索引中。我想出了两种方法:

  1. 编写一个mediawiki插件,该插件为每个目录创建一个页面,为每个项目创建一个项目符号列表,并提供一个下载对象的链接。
  2. 编写一个Python程序,该程序使用mediaWiki API为每个项目创建一个带有完整元数据的mediawiki页面。然后,我可以提取文本并将提取的文本以及MediaWiki预先格式化的文本放在页面上。

但是,其中一些文档很长,因此我认为另一种方法是从PDF中提取文本并将其放入MediaWiki索引中。对于多页PDF,甚至可以自动上传PDF第一页甚至所有页面的缩略图。

那么在MediaWiki网站上引用全文的PDF文件的合适方法是什么?

1 个答案:

答案 0 :(得分:0)

使用PdfHandler公开要搜索的PDF文件元数据,并将这些文档上传为文件(例如,使用PywikibotimportImages.php)。