我正在尝试构建一个示例应用,我想在其中解析推文并找到城市名称, 该推文中的国家名称和公司名称。
这样做的愚蠢方法可以是维护清单 国家,城市和公司名称的名称,并在推文文本中找到那些 每次我想添加新内容时,方法都需要更改。
是否有库可以解析字符串并向我提供此信息?或者你能告诉我一个我应该采取的方式吗?
答案 0 :(得分:6)
Apache Stanbol
的{{3}}组件为其RESTful API提供NER服务。您可以简单地将推文内容发送给Stanbol,它可以为您提供增强功能,即人员,地点,组织等增强功能。
您可以尝试演示服务器:
Enhancer
http://dev.iks-project.eu:8081/engines
答案 1 :(得分:2)
您正在寻找命名实体识别。
答案 2 :(得分:0)
假设推文都具有相同的结构,并且您想要的信息不在块文本中,您可以编写一个简单的解析器来获取信息。