我需要创建一个神经网络,将文本文件(例如某些游戏的文本)转换为xml的tei格式。
例如,进行转换
Аксенов
Здорово ль, кум?
Лыткин
Здорово, Петр Аксеныч.
Тебя как милует Господь?
进入
<sp who="#aksenov">
<speaker>Аксенов</speaker>
<l part="I">Здорово ль, кум?</l>
</sp>
<sp who="#lytkin">
<speaker>Лыткин</speaker>
<l part="F">Здорово, Петр Аксеныч.</l>
<l part="I">Тебя как милует Господь?</l>
</sp>
但这并不是那么简单,因为几乎总是模棱两可:要么有一个<stage>
标签,要么有一个<sp>
标签,一个<l>
标签(诗歌行)或<p>
标签(散文段落)等。
我试图编写一个脚本,通过遵循一些规则来转换txt文件,但是几乎不可能预见所有可能的作者特定情况的结构(即使在介绍场景时),因此我决定采用一种更通用的方法。问题是我无法确定哪种任务最适合这种任务。
我想使用RNN,但实际上我需要生成的不是随机文本,而是带有标记的相同文本。我看到了很多图像到...(-latex_formulas / -html)的示例,但是没有一个示例可以将文本转换为文本,保存原始文本并添加标记。
也许你们中的一些人已经遇到过类似的问题,或者知道可能的解决方案,或者有一些针对类似任务的现有解决方案的示例?您能和我分享这些知识吗?
非常感谢您的帮助!