我是NLP的新手,我想问一下如何根据使用Python的关键字从文本中提取句子。我创建了一个关键字列表,该列表将用于从文档中提取句子。
如果这是一个简单的令牌化问题,您将在列表中遍历令牌,那么如何捕获同义词或相关单词?
例如:
Keyword: Internal business
Sentence: You can only use this software for your business only.
Keyword: Confidentiality
Sentence: Information will be kept as secure as possible.
我实际上使用TF-IDF实现了文本分类,但是数据集较小且关键字数量很多。我认为这不会奏效。预先感谢。
是否可以应用诸如word2vec之类的经过预训练的模型?
是否还可以创建一个适合我的担忧的自定义模型?