我需要一些帮助或想法来模拟我的机器学习问题:
假设我有多个文档,每个文档由n页组成。我想预测一堆页面中的文档边界。
因此,我设置了一个名为“ is_first_page”的标签,该标签在文档的第一页为1,在0或任何内部页或最后一页。所以我的数据集基本上就是这样
page_id,document_id,文本,is_first_page
1,1,第1,1页中的文字
2,1,第2,0页中的文字
3,1,第3,0页中的文字
4,2,第4,1页中的文字
5,2,第5,0页中的文字
6,3,第6,1页中的文字
7,4,第7,1页中的文字
8,5,第8,1页中的文字
9,5,第9,0页中的文字
...
我基本上有两个问题:
1)该问题在某种程度上与序列预测有关,因为每个文档都由逻辑顺序组成。但是,它不是一个时间序列,并且ist_first_page并不是page_id的(可预测的)函数...。但是,我仍在怀疑是否应将LSTM用于该任务。假设这个问题的答案是肯定的,那么我不清楚它将如何工作。
我浏览了有关多对多lstm的教程。它从x =“一个女孩走进酒吧,然后她”预测序列“女孩走进一个酒吧,然后她说”。我很清楚,但这不适合我的问题。我不想从“第1页的文字”中预测“第1页的文字”。相反,我想使用9个文本的序列来预测“ 1 0 0 1 0 1 1 1 0 0”。另一方面,它也不是一对多的网络,因为每个页面都有一个“ is_first_page”标签...任何想法将不胜感激...
2)我不确定如何适当地优化网络(即将损失降到最低)。在上述示例数据集中,我有9页,但只有5个文档。因此,如果一页被错误分类(例如第3页),则8/9页是正确的,但5个文档中只有4个是正确的。以我的幼稚观点,损失函数应该使后者最小化。。。我在Google上搜索了很多,但是找不到任何提示来编写如何将不同的“行”考虑在内的损失函数...
感谢任何宝贵的提示
Jan