我在这里寻找一些一般指导。
高级用例是我收到一些产品文档 我需要从中提取一些信息并进行处理。之前 这样做,我需要验证文档实际上是在引用 到正确的产品。为此我需要验证产品 从文件标题/描述反对我所知道的正确。
所以我有2个文本
我需要确认两个文本都引用相同的产品或对象。
示例:
Text 1 (to be validated) - Optimus Prime Costume, Blue, with good packaging and warranty
Text 2 (correct info) - Optimus Prime Blue Costume, Medium Size`
你知道,我需要验证两个文本都引用Optimus Prime Costume
。
我尝试了以下方法 -
但问题在于它们取决于整个文本而不是文本中提到的主要对象。
我在考虑处理如下: -
我不太确定可能会有哪些不同的NLP技术,这比这种方法更好,所以任何建议都会受到赞赏。
答案 0 :(得分:0)
根据您的目标,这可能是中等硬度或非常难。
您可以使用以下几种方法:
Wikifier也很有用:http://cogcomp.org/page/demo_view/Wikifier
还有语义角色标签。在此处查看更多注释:http://nlp.cogcomp.org/
很难从一个单一的例子判断出什么是确切的算法,但是如果你有更多的例子可能更容易提出更好的形式化。
可以在已经使用的内容中找到它的扩展 in this work.