我正在做一个项目,其中我必须从文本文件(.doc)格式中提取名词形容词名词短语和动词。 我有大约75个这样的文件的语料库。我已经访问网络找到它,我使用nltk在python中遇到了POS标记。 因为我的项目在c#中(使用visual studio 2008),我需要一个代码才能这样做。 我已经尝试了wordnet api同样的甚至是sharpnlp但是因为我是一个新手我发现这些很难与我的项目整合。 任何人都可以建议我使用类似词汇等的简单代码.PLZ帮助我们。 感谢名单。
答案 0 :(得分:3)
我曾在NLP(自然语言处理)工作了一段时间的行业领导者,你想做的事情不是一件轻而易举的事。我认识nltk
的创作者之一,我自己也用过它;它是一个高质量的开源工具,我建议你使用它(你有一个特别令人信服的理由使用C#?)
POS标记通常通过在手工注释数据上训练语言模型,然后将该模型应用于新文本,预测词性和给予置信度来实现。 nltk
有工具可以做到这一点,他们也有一些模型(如果我没有记错的话)。
您会发现大多数工具都是用C ++,Java和Python编写的。如果您不知道任何语言,那么这是一个学习的绝佳机会!
有关此类标记的更多信息和其他可用于此类标记的软件,请参阅Wikipedia,尤其是底部的链接。
答案 1 :(得分:2)
克里斯托弗在他的声明中是正确的,即NLP的实施不是野餐。但是,我最近在一个带有基本PoS解析器的.NET项目中使用OpenNLP研究了一个可行的解决方案。在我的例子中,我正在寻找名词短语,但是找到其他片段也不应该太难。我发现1.5的OpenNLP Tools Models足以满足我的目的。
我意识到这个问题对于提问者来说已经很晚了,但希望它会给这些困难的领域带来一些启发。
Extracting noun phrases with contextual relevance in .NET using OpenNLP
答案 2 :(得分:0)
请仔细阅读本文。
Easy Integration of SharpNLP with C# Visual Studio Project
在本文中,我一步一步地将SharpNLP与C#项目集成在一起,并提供了示例代码片段,专门解决您的问题,如句子分裂,标记化和POSTagging。
尝试这一点,我将能够帮助您解决遇到的问题。