我正在学习数据挖掘。我的梦想是开发一个接收小文本(几个句子)的系统,并提供一个字典,其中包含来自文本的短语和来自数据库的大多数相关标签。例如,
输入(来自NYTimes网站): “洛杉矶 - 沃尔特迪斯尼公司,旨在解决娱乐在儿童肥胖问题中的作用,计划于周二宣布所有在儿童电视频道,广播电台和网站上宣传的产品必须符合严格要求一套营养标准。“
输出:
"LOS ANGELES" : [USA, California, Los_Angeles, city],
"The Walt Disney Company": [Walt_Disney, Corporation, USA, movies, entertainment],
"childhood obesity" : [childhood, illness, health],
"all products advertised": [product, advertisement,
"television channel": [TV, broadcast, advertisement],
"radio station": [Radio, broadcast, advertisement],
"web sites": [Web, broadcast, advertisement]
我已下载英语和西班牙语维基百科转储。到目前为止,我设法使用python,lxml和nltk提取所有标题和标题中的单词。现在,我正在开发一个程序来查找转储中文章之间的链接网络,外部网站的链接等。另外,我正在考虑提取信息框。另外,我本周将在github上发布python代码。现在,我正在评论和测试它。
你能给我什么建议?你认为这个提案是否可行?
答案 0 :(得分:3)
我建议您查看DBpedia,而不是手动处理原始Wikipedia转储。 DBpedia收获维基百科并构建它以便使关系易于查询。
还有其他项目可以抓取维基百科,例如: Semantic MediaWiki和Freebase。 WordNet也可能是有用的信息来源。词典/词库表示词之间的多种关系。