如何转义CoreNLP中RegexNER映射文件中的字符?

时间:2017-04-15 17:39:28

标签: stanford-nlp

我的文字中有以下一行:

  

耳聋(线粒体)修饰基因2基因的突变

我已经在我的RegexNER映射文件中尝试了以下几行,将耳聋(线粒体)修饰符2 标记为GENE,但它们都失败了

  

耳聋(线粒体)修饰因子2基因

     

耳聋\(线粒体\)修饰语2基因

似乎问题是转义括号字符,因为当我从文本和映射文件中删除括号时它会匹配。在RegexNER映射文件中转义字符的正确方法是什么?

1 个答案:

答案 0 :(得分:2)

括号变换器将括号转换为:

import urllib2 from bs4 import BeautifulSoup url = 'https://www.nhl.com/player/ryan-getzlaf-8470612?stats=gamelogs-r-nhl&season=20162017' page = urllib2.urlopen(url) soup = BeautifulSoup(page, 'html.parser') Test = soup.find_all('div', attrs={'id': "gamelogsTable"}) -LRB-

所以你想:-RRB-匹配-LRB- mitochondrial -RRB-

另请注意,tokenizer会为每个括号创建一个标记。