如何使用NLP根据令牌的上下文对令牌进行分类

时间:2019-10-05 01:11:39

标签: nlp spacy spacy-pytorch-transformers

我希望从组织病理学报告中提取肿瘤大小。大小以毫米为单位,通常在自由文本中提到。我可以使用正则表达式确定以mm为单位的测量值,但是并非所有测量值都是我需要的肿瘤大小。还可以另外提及原位肿瘤及其大小,而我只需要肿瘤的侵袭性成分的大小即可。两者都可以在同一句子中提及。

因此,基本上,我需要一个NLP模型来确定每个给定的测量值,该值是否使用正则表达式位于自由文本中,是否是我要寻找的肿瘤大小。或将其归为更专业的术语,我需要根据报告中的上下文对令牌(例如“ 20毫米”)进行分类。

由于这不是标准的文本分类问题,所以我不确定最好的方法是什么,以及我如何利用BERT等来实现此目的。

我可以想到两种潜在的方法:

  1. NER:在文本中注释侵袭性肿瘤的大小跨度,并训练NER模型以将正确的度量标识为一个实体。我有种感觉,当一次需要考虑一个以上的句子时,这可能会很困难。

  2. Textcat:将相关标记替换为BERT vocab中的占位符(例如“ 20 mm”->“ [unused001]”),并对句子进行分类,还包括该句子的上一个和下一个句子提供更多背景信息。我一次只替换一个毫米的尺寸,以便在有多个尺寸的情况下使模型专注于单个尺寸。

可能还有其他方法吗?有没有人做过类似的事情并且可以分享他们的经验?

0 个答案:

没有答案