Question

我想把一堆意见弄清楚。据我所知，nltk不能用不同于英语的语言来词汇化。稍微研究一下，我找到了pattern，它可以用几种语言对单词进行词汇化。如何用模式将某些文本变形？

这是我的测试语料库：

# -- coding: utf-8 --

from pattern.es import lemma #unresolved reference

opinions = ["Este es un post de juguetes de aprendizaje \
automático. En realidad, contiene no mucho \
material interesante.",
"Las bases de datos de imágenes proporcionan \
capacidades de almacenamiento.",
"La mayoría de las bases de datos de imágenes \
imágenes seguras de forma permanente.",
"Los datos de imagen de tienda bases de datos.",
"Imagina almacenar bases de datos de bases de \
datos de imágenes. Almacenar datos. Bases de datos \
de imágenes de datos de la tienda."]

print lemma(opiniones)

输出：

  File "/Users/user/PycharmProjects/Pruebas/Lemmatizacion.py", line 18, in <module>
    print lemma(opiniones)
  File "/usr/local/lib/python2.7/site-packages/pattern/text/__init__.py", line 1591, in lemma
    if verb.lower() in self._inverse:
AttributeError: 'list' object has no attribute 'lower'

我怎样才能将opinions lemmatize？

Answer 1

您可以使用模式的parsetree函数对文本进行词典化，并将lemmata参数设置为True。

from pattern.es import parsetree
parsetree("buena", lemmata=True)
# Returns [Sentence('buena/JJ/B-ADJP/O/bueno')]

如何用模式对西班牙语进行词形翻译？

1 个答案: