我的文字中有以下一行:
耳聋(线粒体)修饰基因2基因的突变
我已经在我的RegexNER映射文件中尝试了以下几行,将耳聋(线粒体)修饰符2 标记为GENE,但它们都失败了
耳聋(线粒体)修饰因子2基因
耳聋\(线粒体\)修饰语2基因
似乎问题是转义括号字符,因为当我从文本和映射文件中删除括号时它会匹配。在RegexNER映射文件中转义字符的正确方法是什么?
答案 0 :(得分:2)
括号变换器将括号转换为:
import urllib2
from bs4 import BeautifulSoup
url = 'https://www.nhl.com/player/ryan-getzlaf-8470612?stats=gamelogs-r-nhl&season=20162017'
page = urllib2.urlopen(url)
soup = BeautifulSoup(page, 'html.parser')
Test = soup.find_all('div', attrs={'id': "gamelogsTable"})
和-LRB-
所以你想:-RRB-
匹配-LRB- mitochondrial -RRB-
另请注意,tokenizer会为每个括号创建一个标记。