应用错误收集

如何转义CoreNLP中RegexNER映射文件中的字符？

时间：2017-04-15 17:39:28

标签： stanford-nlp

我的文字中有以下一行：

耳聋（线粒体）修饰基因2基因的突变

我已经在我的RegexNER映射文件中尝试了以下几行，将耳聋（线粒体）修饰符2 标记为GENE，但它们都失败了

耳聋（线粒体）修饰因子2基因

耳聋\（线粒体\）修饰语2基因

似乎问题是转义括号字符，因为当我从文本和映射文件中删除括号时它会匹配。在RegexNER映射文件中转义字符的正确方法是什么？

1 个答案:

答案 0 :(得分：2)

括号变换器将括号转换为：

import urllib2 from bs4 import BeautifulSoup url = 'https://www.nhl.com/player/ryan-getzlaf-8470612?stats=gamelogs-r-nhl&season=20162017' page = urllib2.urlopen(url) soup = BeautifulSoup(page, 'html.parser') Test = soup.find_all('div', attrs={'id': "gamelogsTable"})和-LRB-

所以你想：-RRB-匹配-LRB- mitochondrial -RRB-

另请注意，tokenizer会为每个括号创建一个标记。