标签: nlp wikipedia gate
总体任务是在维基百科页面上做NLP。
首先,从GATE以一种好的方式访问下载的Wikipedia数据库转储(40GB XML文件)? 实际上,我只需要医疗类别。
是否有一些库?
任何提示都表示赞赏!
BW
答案 0 :(得分:0)
就我搜索而言,似乎我必须: 1.在本地安装Mediawiki 2.使用mwdump将xml转储导入Mediawiki数据库(MySQL) 3.使用JDBC连接器访问MySQL数据库
不知道我是否正在迂回