Named Entity Extraction (extract ppl, cities, organizations)
Content Tagging (extract topic tags by scanning doc)
Structured Data Extraction
Topic Categorization (taxonomy classification by scanning doc....bayesian )
Text extraction (HTML page cleaning)
是否有可用于执行NLP上述任何功能的库?
真的不想向AlchemyAPI捐出现金
答案 0 :(得分:8)
实际上有很多免费提供的开源自然语言处理软件包。这是一个简短的列表,按工具包的实现语言组织:
如果您不确定要使用哪一个,我建议您从NLTK开始。该软件包相当容易使用,并且在线提供了很好的文档,包括a free book。
您应该可以使用NLTK轻松完成您列出的NLP任务,例如: named entity recognition (NER),extracting tags for documents和document categorization。
Alchemy人称之为structured data extraction的内容看起来只是HTML报废,只要页面仍以可视方式呈现相同的方式,就可以对基础HTML进行更改。所以,这不是一个真正的NLP任务。
要从HTML中提取文本,只需使用boilerpipe即可。它快速,好,免费。
答案 1 :(得分:1)
Apache UIMA项目最初由IBM创建,提供了与GATE非常相似的NLP框架。那里有各种为UIMA打造的注释器。