我正在尝试建立一个基于深度学习的模型来从长句中提取特定文本。
我们假设有一个200字的文本,以及一张表格,其中我有我的客户名称和姓氏。我正在尝试构建一个模型,使用深度学习从这200个单词中提取特定的客户名称/姓氏。
我已经阅读过关于CNN和RNTN模型,语义分析和word2vec模型的内容,但显然我不是该领域的专家。
我的想法是:
我们可以找到名词/副词/动词/ ...我们应该能够创建一种新的“语义排序”作为客户端,地址,....
有人能给我一些关于我思维方式的建议吗?或者告诉我应该改变/改进哪一部分?
非常感谢。
答案 0 :(得分:0)
在构建一个难以构建/非常耗时的模型之后,您可以使用命名实体识别(NER);但是,如果您知道客户名称和姓氏,则可以更快速地在句子中识别它们。只需使用带有表参数的简单SQL查询来查找客户端名称和姓氏。我在SQL Server 2012中使用这样的东西。在这个例子中,你可以传递X个客户端作为表值参数来隔离句子。我正在处理的项目遇到了同样的问题,这就是解决方案......总有一种替代方案,在这种情况下,您可以在几分钟而不是几周内完成设置:
ALTER Procedure [dbo].[Get_Sentences_Token_Table_Value_Parameter]
@id_file int,
@sentiment nvarchar(50),
@client_list [dbo].[client_list] READONLY
AS
SELECT TOP (1000) sentence_id, pos_remaining_token, sentiment AS Sentiment, sentence AS Sentence, id_file, pos_token
FROM chat_Facets
GROUP BY sentence_id, pos_remaining_token, sentiment, sentence, id_file, pos_token
HAVING (id_file = @id_file) AND (sentiment = @sentiment) AND chat_Facets.pos_remaining_token IN (SELECT pos_remaining_token FROM @client_list)
ORDER BY pos_remaining_token, Sentence