我有很多文本(数百万),从100到4000字不等。文本被格式化为书面作品,带有标点符号和语法。一切都用英文。
问题很简单:如何从给定文本中提取每个WikiData实体?
实体被定义为每个名词,正确或规则。即,人员,组织,地点和诸如主席,土豆等的名称。
到目前为止,我已尝试过以下内容:
此有效,但我觉得我可以做得更好。一个明显的改进是在本地缓存WikiData的相关部分,我计划这样做。但是,在我这样做之前,我想检查是否有其他解决方案。
建议?
我标记了Scala这个问题,因为我正在使用Spark来完成任务。
答案 0 :(得分:3)
一些建议:
特别是,DBpedia Spotlight是专为此任务而设计的一个系统。
http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38389.pdf http://ceur-ws.org/Vol-1057/Nebhi_LD4IE2013.pdf