我有一个包含大量条目的大型数据库(其中大多数是电影),只有描述信息。 ID为1的条目(例如)的描述可能如下:
“阿甘正传”是一部1994年美国史诗浪漫喜剧电影 1986年由Winston Groom创作的同名小说。这部电影是 由Robert Zemeckis和明星Tom Hanks,Robin Wright,Gary执导 Sinise,Mykelti Williamson和Sally Field。'
现在我还有一些基本上是词典的txt文档,结构如下:
actors.txt
Mickey Mouse
Tom Hanks
...
directors.txt
Donald Duck
Robert Zemeckis
...
我想要做的是分析每个条目的描述并从我的字典中解析命名实体。因此,如果文本包含'Tom Hanks',我想要认识到ID为1的条目有Tom Hanks作为演员,依此类推。输出应该是这样的:
Actor: Tom Hanks, Actor: Robin Wright, Director: Robert Zemeckis, Distributor: Paramount Pictures.
或任何易于操作的格式。
答案 0 :(得分:1)
您要做的就是使用SOLR,在其架构中设置一些新的字段类型(如text_actors),这些字段链接到相应的字典,编写相应的架构,然后导入数据库。据我所知,这可以帮助您开发一个可搜索的数据库,您可以从中查询所有结果并填充您自己的数据库。