术语提取与可用术语列表

时间:2011-02-01 13:54:52

标签: algorithm text-extraction term

我正在寻找术语提取算法/服务。这只是编辑器的建议,因此提取的术语可能不完整。因此,我希望它将文本与可用术语列表进行比较,并不建议在此列表之外的术语。

任务似乎微不足道:对于每个术语,计算文本中的出现次数,过滤顶部术语。但是我在这里列出了几十万个术语,这个任务看起来是不可能的。你知道服务或算法吗?

另一个细节是虽然我对术语提取服务很满意(然后根据我的列表过滤这些术语),但这是非英语语言,大多数单词都是复合词,因此我不知道任何有用的服务。

感谢。

编辑:示例

  

HômthứHai31/1/2011,EricssonchoiếtđãtrìnhdiễnmạngHSPA(高速分组接入)vớitốcđộtảixuốnglênđến168Mbit /giây,tốcđộtảilên24Mbit /giây。 Buổitrìnhdễnsửửửộộn nnịịịv v v v v vvạạạạạạSing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing Sing。      

Đểđạttốcđộ168Mbit /giây,Ericssonđãsửdụngmộtsốthủtvtôtyyykyn,baogồmcôngngệtenotimMIMO(Multiple-Input Multiple-Output)vàgửidữliệutquanhiềukênhcùngmộtlúc。 MIMOsửdụngnhiềutotittạitrạmgốcvàtrênthiếtbịđểtăngtốcđộ。

     

Theo Ericsson,cũngsẽcómộtbuổiirìnhdiễnnhưvậyđượctiếnhànhtạiiriểnlãm移动世界大会sắptớiở巴塞罗那(TâyBanNha)

建议清单可能是:Ericsson,trìnhdiễn,HSPA,anten(以及其他)

1 个答案:

答案 0 :(得分:0)

在第一轮中,您可以提取所有单个单词并查找列表中的哪些单词。如果你的清单是订购的话,通过二进制搜索。

在第二轮中,您提取所有单词对(Hômthứ,thứHai,Ericsson cho,chobiết)等,并在列表中查找这些术语。

所有后续步骤都不比第一步复杂得多:在第一步中,您将获得与文本中不同单词一样多的查找,第二步中的数字您将查找的单词组合可能更接近文本中的单词总数。但是我仍然会说复合词确实不会使问题复杂化。根据第一步中单词提取的结果,大大减少第二步列表的大小可能是可行的。

或者我觉得这太简单了?