应用错误收集

我需要一些帮助或想法来模拟我的机器学习问题：
假设我有多个文档，每个文档由n页组成。我想预测一堆页面中的文档边界。

因此，我设置了一个名为“ is_first_page”的标签，该标签在文档的第一页为1，在0或任何内部页或最后一页。所以我的数据集基本上就是这样

page_id，document_id，文本，is_first_page
1,1，第1,1页中的文字
2,1，第2,0页中的文字
3,1，第3,0页中的文字
4,2，第4,1页中的文字
5,2，第5,0页中的文字
6,3，第6,1页中的文字
7,4，第7,1页中的文字
8,5，第8,1页中的文字
9,5，第9,0页中的文字
...

我基本上有两个问题：

1）该问题在某种程度上与序列预测有关，因为每个文档都由逻辑顺序组成。但是，它不是一个时间序列，并且ist_first_page并不是page_id的（可预测的）函数...。但是，我仍在怀疑是否应将LSTM用于该任务。假设这个问题的答案是肯定的，那么我不清楚它将如何工作。

我浏览了有关多对多lstm的教程。它从x =“一个女孩走进酒吧，然后她”预测序列“女孩走进一个酒吧，然后她说”。我很清楚，但这不适合我的问题。我不想从“第1页的文字”中预测“第1页的文字”。相反，我想使用9个文本的序列来预测“ 1 0 0 1 0 1 1 1 0 0”。另一方面，它也不是一对多的网络，因为每个页面都有一个“ is_first_page”标签...任何想法将不胜感激...

2）我不确定如何适当地优化网络（即将损失降到最低）。在上述示例数据集中，我有9页，但只有5个文档。因此，如果一页被错误分类（例如第3页），则8/9页是正确的，但5个文档中只有4个是正确的。以我的幼稚观点，损失函数应该使后者最小化。。。我在Google上搜索了很多，但是找不到任何提示来编写如何将不同的“行”考虑在内的损失函数...

感谢任何宝贵的提示

Jan

如何为文件分离建模

0 个答案: