Question

Python-NLTK可以识别输入字符串并解析它不仅基于空格而且还基于内容？说，＆＃34;计算机系统＆＃34;在这种情况下成了短语。任何人都可以提供示例代码吗？

输入字符串：＆＃34;用户对计算机系统响应时间的意见调查＆＃34;

预期输出：[＆＃34; A＆＃34;，＆＃34;调查＆＃34;，＆＃34;＆＃34;，＆＃34;用户＆＃34;，＆＃34;意见＆＃34;，＆＃34;＆＃34;，＆＃34;计算机系统＆＃34;，＆＃34;响应＆＃34;，＆＃34;时间＆＃34;]

Answer 1

您正在寻找的技术称为多个子领域或语言学和计算子领域的多个名称。

密钥短语提取
- 来自信息检索，主要用于改进搜索索引/查询
- 阅读最近的调查报告：http://www.hlt.utdallas.edu/~saidul/acl14.pdf
- （我个人）强烈推荐：https://code.google.com/p/jatetoolkit/当然还有着名的https://code.google.com/p/kea-algorithm/（来自给你带来WEKA的人，http://www.cs.waikato.ac.nz/ml/weka/）
- 对于python，可能是https://github.com/aneesha/RAKE

的分块

从自然语言处理中，它也称为浅层解析，

阅读Steve Abney的工作原理：http://www.vinartus.net/spa/90e.pdf

主要的NLP框架和工具包应该有它们（例如OpenNLP，GATE，NLTK *（请注意，NLTK的默认chunker仅适用于名称实体））

斯坦福大学NLP也有一个：http://nlp.stanford.edu/projects/shallow-parsing.shtml

我将举例说明NLTK中的NE chunker：

>>> from nltk import word_tokenize, ne_chunk, pos_tag >>> sent = "A survey of user opinion of computer system response time" >>> chunked = ne_chunk(pos_tag(word_tokenize(sent))) >>> for i in chunked: ... print i ... ('A', 'DT') ('survey', 'NN') ('of', 'IN') ('user', 'NN') ('opinion', 'NN') ('of', 'IN') ('computer', 'NN') ('system', 'NN') ('response', 'NN') ('time', 'NN')

使用命名实体：

>>> sent2 = "Barack Obama meets Michael Jackson in Nihonbashi" >>> chunked = ne_chunk(pos_tag(word_tokenize(sent2))) >>> for i in chunked: ... print i ... (PERSON Barack/NNP) (ORGANIZATION Obama/NNP) ('meets', 'NNS') (PERSON Michael/NNP Jackson/NNP) ('in', 'IN') (GPE Nihonbashi/NNP)

你可以看到它有很多缺陷，我认为它比什么都好。

多字表达式提取

NLP中的热门话题，每个人都想出于某种原因提取它们

Ivan Sag最值得注意的作品：http://lingo.stanford.edu/pubs/WP-2001-03.pdf以及各种提取算法的m气和ACL论文的提取用法

尽管这个MWE非常神秘，我们不知道如何自动分类或正确提取它们，但是没有适当的工具（奇怪的是，MWE的输出研究人员通常希望通过Keyphrase Extraction或chunking获得...）

术语提取

这来自翻译研究，他们希望翻译人员在翻译文档时使用正确的技术词汇。

请注意，术语附带ISO标准的玉米芯，人们应遵循这一标准，因为翻译行业复杂，产生了数十亿的收入......

单一地，我不知道是什么使它们与术语提取器，相同的算法，不同的界面有所区别......我想一些术语提取器的唯一的事情就是能够双语并自动生成字典。

以下是一些工具

https://github.com/srijiths/jtopia和

http://fivefilters.org/term-extraction/

https://github.com/turian/topia.termextract

https://www.airpair.com/nlp/keyword-extraction-tutorial

http://termcoord.wordpress.com/about/testing-of-term-extraction-tools/free-term-extractors/

关于工具的注意事项：尽管如此，仍然没有一种工具可以用于术语提取。而且由于涉及到大笔资金，它总是会有一些API调用，而且大多数代码都是半开放式的，而且大多数是关闭的。再说一次，搜索引擎优化也是一笔巨款，可能它只是翻译行业中一种超级秘密的文化事物。

现在回到OP的问题。

问：可以NLTK提取＆＃34;计算机系统＆＃34;作为短语？

答：不是

如上所示，NLTK已预先训练过chunker，但它适用于名称实体，即便如此，并非所有命名实体都能得到很好的识别。

可能OP会尝试更激进的想法，让我们假设一系列名词总是形成一个短语：

>>> from nltk import word_tokenize, pos_tag >>> sent = "A survey of user opinion of computer system response time" >>> tagged = pos_tag(word_tokenize(sent)) >>> chunks = [] >>> current_chunk = [] >>> for word, pos in tagged: ... if pos.startswith('N'): ... current_chunk.append((word,pos)) ... else: ... if current_chunk: ... chunks.append(current_chunk) ... current_chunk = [] ... >>> chunks [[('computer', 'NN'), ('system', 'NN'), ('response', 'NN'), ('time', 'NN')], [('survey', 'NN')], [('user', 'NN'), ('opinion', 'NN')]] >>> for i in chunks: ... print i ... [('computer', 'NN'), ('system', 'NN'), ('response', 'NN'), ('time', 'NN')] [('survey', 'NN')] [('user', 'NN'), ('opinion', 'NN')]

因此，即使使用该解决方案，似乎也在尝试使用“计算机系统”。一个人很难。但是，如果您认为有点像计算机系统的响应时间＆＃39;是比计算机系统更有效的短语＆＃39;。

并非所有对计算机系统响应时间的解释都是有效的：

[计算机系统响应时间]

[computer [system [response [time]]]]

[计算机系统] [响应时间]

[计算机[系统响应时间]]

还有许多可能的解释。因此，您必须询问，您使用所提取的短语是什么，然后了解如何继续剪切诸如计算机系统响应时间之类的长短语。

如何使用Python-NLTK基于词汇内容（短语）解析句子

1 个答案: