我正在尝试一种潜在的方式来预测给定文本数据的ID值。数据被破坏:
Group:4位数字,其中存在一组ID
ID:13位数字,即组号+唯一值
文本:来自文档的单词。
目标:仅根据文档中的文本来预测ID号。
我拥有的数据大约有1200个不同的ID,而只有140个不同的组。文档术语矩阵大约186列宽,大约20,000行。我还有很多数据可以包含。我创建了一个简单的神经网络,以70%的准确度预测组号。我的想法是先使用此模型预测组号,然后为每个组建立单独的模型以缩小预测中的ID数量。最终模型将被训练并将用于预测ID。下面是我的想法图。这类似于整体学习中的堆叠吗?我对机器学习还比较陌生,我正在尝试思考解决此问题的不同方法。
我是走正确的道路还是有更好的方法呢?任何建议都将不胜感激。
答案 0 :(得分:0)
很大程度上取决于您认为从文本中推断出group_number
和unique_value
的能力。 unique_value
完全取决于group_number
吗?如果是这样,那么您可能希望首先预测group_number
并将其用于unique_value
的预测中-正如您建议对每个唯一组号所做的那样。您还必须考虑每个给定组的数据量,以及是否足以训练相应的模型。试一试,如果它不起作用,请尝试使用单个神经网络,在其中输入您已经预测的文本和组号!
祝你好运!