如何弥合维基百科数据库转储和GATE之间的差距?

时间:2012-10-10 11:01:41

标签: nlp wikipedia gate

总体任务是在维基百科页面上做NLP。

首先,从GATE以一种好的方式访问下载的Wikipedia数据库转储(40GB XML文件)? 实际上,我只需要医疗类别。

是否有一些库?

任何提示都表示赞赏!

BW

1 个答案:

答案 0 :(得分:0)

就我搜索而言,似乎我必须: 1.在本地安装Mediawiki 2.使用mwdump将xml转储导入Mediawiki数据库(MySQL) 3.使用JDBC连接器访问MySQL数据库

不知道我是否正在迂回