使用序列比对算法构建NER

时间:2015-12-18 23:46:27

标签: nlp named-entity-recognition dna-sequence string-search sequence-alignment

背景 维基百科页面Sequence Alignment表示DNA序列比对算法也可用于自然语言处理。

问题: 因为命名实体识别器和DNA序列库都进行近似字符串匹配 - 是否实用使用DNA测序库(如Bowtie)并构建您的NER?

不使用现有NER开源但使用DNA测序库构建NER的一个原因是希望在我的NER中自动进行“拼写错误修正”。

如果我的上述假设有意义 - 是否有一些在线DNA测序工具,我可以输入我的名人数据库而不是DNA序列,并尝试在DNA测序工具中搜索拼写错误的'Michale Jacksun',希望它与输入数据库中的'Michael Jackson'匹配

1 个答案:

答案 0 :(得分:0)

虽然DNA测序也使用了编辑距离算法 - 您可以使用相同的算法来检测NER期间的拼写错误。但DNA测序开放源通常被编程为仅在用于表示DNA序列的几个字符上操作。它们不能在正常的a-z A-Z 0-9范围的ASCII字符上运行。引文:https://groups.google.com/forum/#!category-topic/nvbio-users/how-do-i--/ITjD6KPlEsc

正如Vihari所建议的那样 - 最好使用一些编辑距离算法。但我真的希望NLP爱好者能够在未来的时间里探索这样的DNA测序开源,并发展它们以利用“大数据容量”#39;这样的DNA测序开源可以在NLP社区中将它带给我们