如何识别文本中的标签

时间:2013-04-14 16:14:51

标签: lucene

我正在尝试识别文本中的预定义标记。

标签可以 *手术

  • 妇科
  • 眼科
  • 手外科
  • 节肢动物传播的病毒性发热和病毒性出血热

我现在正在做的是从文本中检索术语向量并针对标记索引运行个体。我有以下问题

  • 如果我使用带有通配符的关键字查询,我会收到很多无关紧要的点击。例如。该文包含约翰在他的成长中所带来的......将与“节肢动物传播的病毒性发烧和病毒性出血热”相匹配

  • 如果我使用短语搜索,则此问题会被消除,但现在标签“手外科”将无法匹配,因为这些术语仅包含单个单词。

我只是想知道是否有更好的方法来解决这个问题。我最初使用索引文本循环遍历所有可用标记,这些标记效果很好但是性能非常强。

0 个答案:

没有答案