我知道有很多方法可以检测专有名词并用工具将它们分块。但之后输出的数组中充满了分块的单词。
我怎样才能用缩小的专有名词重写句子。
示例:
John Rose Center is very beautiful place and i want to go there with
Barbara Palvin. Also there are stores like Adidas ,Nike , Reebok.
如果我使用stanford解析器(http://nlp.stanford.edu:8080/parser/index.jsp
),输出将是:
John/NNP Rose/NNP Center/NNP is/VBZ very/RB beautiful/JJ place/NN and/CC i/FW want/VBP to/TO go/VB there/RB with/IN Barbara/NNP Palvin/NNP ./.
Also/RB there/EX are/VBP stores/NNS like/IN Adidas/NNP ,/, Nike/NNP ,/, Reebok/NNP ./.
我怎样才能重写这样的句子: 假设我们创建了一个带有标记化句子的数组,并将专有名词组成一个字,这些名词计为一个单词:
for i in arr:
print arr[i]
['John Rose Center']
['is']
['very']
['beautiful']
.
.
['Barbara Palvin']
['Also']
['there']
.
.
['like']
['Adidas']
['Nike']
['Reebok']
"此外"或者其他这样的话对我来说只是尝试了很多次。对于我应该怎样做才能将我的新名称附加到我的新句子中。我搜索了所有的问题,所以请怜悯我,我是在python和nltk都是新的。对于糟糕的英语。
没有限制,例如"我必须只使用stanford解析器"。随意使用每个方法(甚至regexr)将解决我的问题对我来说非常有用!