nlp - 我如何确定在段落中披露某些特定信息的句子？

例如，我有如下段落：第一句话（粗体和斜体）是我希望确定的。识别目标包括： 1.本段是否包含此类披露。 2.本公开是什么。

可能存在的问题是： 1.这句话可能不在文本字符串的开头。它可以在给定段落的任何地方。 2.这句话可能会有不同的含义，但含义相同。例如，它也可以表示为：“提供审查的样本”或“他们向我发送了一个评估项目”或类似的内容。

那么我如何确定此类披露？任何人的想法将不胜感激。感谢。

段落：

我收到了这款Earbuds Audiophile耳机的评论。 我只想在这里复制网站上的信息：“带麦克风的高清立体声耳机配备两个9毫米高保真驱动器，独特的声音表现，均衡的低音，中音和颤音。专为那些喜欢经典音乐，摇滚音乐，流行音乐或高品质声音的游戏而设计。让COR3成为您的耳塞式耳塞式耳机。后盖，内联控制器和麦克风极其灵活的无缠绕扁平TPE电缆，包括带通用麦克风的内置控制器。播放/暂停您的音乐或接听/挂断电话，只需按一下按钮，可根据您的设备功能提供功能。 COR3应该是您最好的游戏耳塞。非常舒适

我试过的方法：到目前为止，我的处理非常幼稚：1）人为标记的1000条评论作为二元变量（1表示包括公开文本，否则为0）。 2）将所有披露文本收集为DisclosureCor表示的语料库; 3）基于这些DisclosureCor，我发现了一些基本的常规回归规则，如“评论。*评估|测试|意见”。 4）使用这些汇总规则来标记新数据。 5）问题是规则可能不完整，因为它们只是我自己的主题总结。此外，这些规则不仅可能出现在公开文本中，还可能出现在评论段落中的其他部分，从而产生大量噪音（即低精度）; 6）我尝试使用基于分类的关联规则来训练标记数据中的一些规则。由于关键字数量巨大，需要很长的时间来训练规则，经常崩溃。 7）我还试图比较审查段落与DisclosureCorp的相似性，但很难找到一个阈值来削减审查段落是否包含披露。这些都是我尝试过的所有努力，请你给我一些提示吗？感谢。

我如何确定在段落中披露某些特定信息的句子？

0 个答案: