通过神经网络从文本/ html代码监督自动生成xml

时间:2019-05-08 18:28:59

标签: xml recurrent-neural-network auto-generate

我需要创建一个神经网络,将文本文件(例如某些游戏的文本)转换为xml的tei格式。

例如,进行转换

Аксенов
    Здорово ль, кум?

Лыткин
    Здорово, Петр Аксеныч.
    Тебя как милует Господь?

进入

<sp who="#aksenov">
    <speaker>Аксенов</speaker>
    <l part="I">Здорово ль, кум?</l>
</sp>
<sp who="#lytkin">
    <speaker>Лыткин</speaker>
    <l part="F">Здорово, Петр Аксеныч.</l>
    <l part="I">Тебя как милует Господь?</l>
</sp>

但这并不是那么简单,因为几乎总是模棱两可:要么有一个<stage>标签,要么有一个<sp>标签,一个<l>标签(诗歌行)或<p>标签(散文段落)等。

我试图编写一个脚本,通过遵循一些规则来转换txt文件,但是几乎不可能预见所有可能的作者特定情况的结构(即使在介绍场景时),因此我决定采用一种更通用的方法。问题是我无法确定哪种任务最适合这种任务。

我想使用RNN,但实际上我需要生成的不是随机文本,而是带有标记的相同文本。我看到了很多图像到...(-latex_formulas / -html)的示例,但是没有一个示例可以将文本转换为文本,保存原始文本并添加标记。

也许你们中的一些人已经遇到过类似的问题,或者知道可能的解决方案,或者有一些针对类似任务的现有解决方案的示例?您能和我分享这些知识吗?

非常感谢您的帮助!

0 个答案:

没有答案