深度学习和文本分析/提取

时间:2016-08-24 11:01:55

标签: deep-learning text-mining text-classification word2vec text-analysis

我正在尝试建立一个基于深度学习的模型来从长句中提取特定文本。

我们假设有一个200字的文本,以及一张表格,其中我有我的客户名称和姓氏。我正在尝试构建一个模型,使用深度学习从这200个单词中提取特定的客户名称/姓氏。

我已经阅读过关于CNN和RNTN模型,语义分析和word2vec模型的内容,但显然我不是该领域的专家。

我的想法是:

  • 第1步:制作第一个模型,其中input = client surname,output = class surname
  • 第2步:制作第二个模型,其中input =客户名称,    output = class name
  • 第3步:制作输入=客户端的第3个模型    name + surname and surname + name,output = class client
  • 第4步:    制作第4个模型,我在输入中发送文字袋并找到方法    在输出中找到客户端类。

我们可以找到名词/副词/动词/ ...我们应该能够创建一种新的“语义排序”作为客户端,地址,....

有人能给我一些关于我思维方式的建议吗?或者告诉我应该改变/改进哪一部分?

非常感谢。

1 个答案:

答案 0 :(得分:0)

在构建一个难以构建/非常耗时的模型之后,您可以使用命名实体识别(NER);但是,如果您知道客户名称和姓氏,则可以更快速地在句子中识别它们。只需使用带有表参数的简单SQL查询来查找客户端名称和姓氏。我在SQL Server 2012中使用这样的东西。在这个例子中,你可以传递X个客户端作为表值参数来隔离句子。我正在处理的项目遇到了同样的问题,这就是解决方案......总有一种替代方案,在这种情况下,您可以在几分钟而不是几周内完成设置:

ALTER Procedure [dbo].[Get_Sentences_Token_Table_Value_Parameter] 
@id_file int,
@sentiment nvarchar(50),
@client_list [dbo].[client_list] READONLY
AS
SELECT        TOP (1000) sentence_id, pos_remaining_token, sentiment AS Sentiment, sentence AS Sentence, id_file, pos_token
FROM            chat_Facets
GROUP BY sentence_id, pos_remaining_token, sentiment, sentence, id_file, pos_token
HAVING        (id_file = @id_file) AND (sentiment = @sentiment) AND chat_Facets.pos_remaining_token IN (SELECT pos_remaining_token FROM @client_list)
ORDER BY pos_remaining_token, Sentence