我如何确定在段落中披露某些特定信息的句子?

时间:2016-02-08 03:13:31

标签: nlp

例如,我有如下段落: 第一句话(粗体和斜体)是我希望确定的。 识别目标包括: 1.本段是否包含此类披露。 2.本公开是什么。

可能存在的问题是: 1.这句话可能不在文本字符串的开头。它可以在给定段落的任何地方。 2.这句话可能会有不同的含义,但含义相同。例如,它也可以表示为:“提供审查的样本”或“他们向我发送了一个评估项目”或类似的内容。

那么我如何确定此类披露?任何人的想法将不胜感激。感谢。

段落:

我收到了这款Earbuds Audiophile耳机的评论。 我只想在这里复制网站上的信息:“带麦克风的高清立体声耳机配备两个9毫米高保真驱动器,独特的声音表现,均衡的低音,中音和颤音。专为那些喜欢经典音乐,摇滚音乐,流行音乐或高品质声音的游戏而设计。让COR3成为您的耳塞式耳塞式耳机。后盖,内联控制器和麦克风 极其灵活的无缠绕扁平TPE电缆,包括带通用麦克风的内置控制器。播放/暂停您的音乐或接听/挂断电话,只需按一下按钮,可根据您的设备功能提供功能。 COR3应该是您最好的游戏耳塞。 非常舒适

我试过的方法: 到目前为止,我的处理非常幼稚:1)人为标记的1000条评论作为二元变量(1表示包括公开文本,否则为0)。 2)将所有披露文本收集为DisclosureCor表示的语料库; 3)基于这些DisclosureCor,我发现了一些基本的常规回归规则,如“评论。*评估|测试|意见”。 4)使用这些汇总规则来标记新数据。 5)问题是规则可能不完整,因为它们只是我自己的主题总结。此外,这些规则不仅可能出现在公开文本中,还可能出现在评论段落中的其他部分,从而产生大量噪音(即低精度); 6)我尝试使用基于分类的关联规则来训练标记数据中的一些规则。由于关键字数量巨大,需要很长的时间来训练规则,经常崩溃。 7)我还试图比较审查段落与DisclosureCorp的相似性,但很难找到一个阈值来削减审查段落是否包含披露。这些都是我尝试过的所有努力,请你给我一些提示吗?感谢。

0 个答案:

没有答案