为什么`'s`和`'`是与其主机分开的实体？

Question

有一个问题，理解为什么NLTK的word_tokenizer查看字符串＆＃34;这＆＃34;＆＃34;然后把它分成＆＃34;这个＆＃34; ＆＃34;＆＃39;＆＃34; ＆＃34; S＆＃34;而不是将它们保持在一起。我用＆＃34;测试＆＃34;进行了测试。这很好用。当我用＆＃34;结果＆＃39;＆＃34;进行测试时它再次分裂了撇号。这只是撇号会发生的特殊事情吗？

Answer 1

一般来说，NLTK和标记符的正常行为是分割this's - ＆gt; this + 's。因为's是一个阴蒂，它们是两个独立的句法单位。

>>> from nltk import word_tokenize
>>> word_tokenize("this's")
['this', "'s"]

对于结果的情况，它是相同的：

>>> word_tokenize("results'")
['results', "'"]

为什么`'s`和`'`是与其主机分开的实体？

对于this's的情况，'s是is的缩写形式，表示copula。在某些情况下，它含糊不清，也可以表示占有欲。

对于results'的第二种情况，'表示占有欲。

因此，如果我们POS标记我们得到的标记化表单：

>>> from nltk import word_tokenize, pos_tag
>>> pos_tag(word_tokenize("results'"))
[('results', 'NNS'), ("'", 'POS')]

对于this's的情况，POS标记符认为它是一种占有欲，因为人们很少在书面文本中使用this's：

>>> from nltk import word_tokenize, pos_tag
>>> pos_tag(word_tokenize("this's"))
[('this', 'DT'), ("'s", 'POS')]

但是如果我们看一下He's - ＆gt; He + 's，'s表示连结更清楚：

>>> pos_tag(word_tokenize("He's good."))
[('He', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('.', '.')]

相关问题：https://stackoverflow.com/a/47384013/610569

Word tokenizer没有拿起＆＃34;这个＆＃34;

1 个答案:

为什么`'s`和`'`是与其主机分开的实体？

Word tokenizer没有拿起＆＃34;这个＆＃34;

1 个答案:

为什么's和'是与其主机分开的实体？

为什么`'s`和`'`是与其主机分开的实体？