使用java标记数据提取

时间:2015-01-06 10:32:26

标签: java lucene uima

我有一个要求,我根据用户输入(标签)收集了文本文件(非结构化数据),我需要在所有文件中搜索标签术语。如果发现我需要返回搜索词发生的段落。

例如:具有以下内容的spec.txt文件

  

支持蓝牙的ABX耳机已经上市了   印度市场的价格为5490卢比。它们有两种颜色可供选择   选择黑色和红色,并配备可充电电池   可以通过随附的micro-USB线进行榨汁。

     

据说ABX能够提供长达10.5小时的时间   完全充电后播放。它还配有一个集成的麦克风   这让你可以参加语音通话。耳机配有数码相机   噪音消除技术和蓝牙接收器/连接器。

在上面两段中,如果用户输入标签,"价格"它应该返回"价格= Rs 5490"或者它应该返回它确定术语"价格"

的段落

我检查了UIMA和lucene,但没有想到怎么做,任何人都可以帮助我..

提前致谢

1 个答案:

答案 0 :(得分:0)

感谢您的回复...是的,我找到了解决方案,我使用solr荧光笔,通过调整solr响应返回的片段的片段大小,我们可以得到搜索词存在的段落