如何提取葡萄牙语的名词/口头短语?

时间:2019-12-30 15:33:46

标签: python nlp text-mining spacy textblob

我找到了多种工具来提取英语中的语言和名词短语,包括stackoverflow中的一些问题。但是,我发现的技术似乎仅适用于英文文本。我已经尝试过spacy和textblob,但是它们不会为葡萄牙语文本返回任何内容(完全可以在英语中使用)。

这是我为葡萄牙语尝试的内容: Spacy to extract specific noun phrase doc.noun_chunks中的代码块非常适合英语,但是有人知道葡萄牙语已经存在的技术吗?我正在搜寻我知道的任何地方。

1 个答案:

答案 0 :(得分:0)

noun_chunks分别针对每种语言实施,因为基本名词短语看起来会有所不同:确定词和形容词出现的顺序是什么,相关的依赖关系和词性标记是什么,等等。

一些次要细节可能有所不同,但是我想葡萄牙语名词块与西班牙语名词块非常相似,因此您可以使用Spanish noun chunks iterator作为起点。西班牙语和葡萄牙语都使用“依赖关系”和“通用依赖关系”中的简单POS标签,因此我希望它很容易适应。

Spacy没有内置的动词短语提取器,但是基本概念类似于名词块:基于POS标签和依赖树定义模式以标识要提取的短语。