我正在尝试使用机器学习来学习由某些服务执行的HTML转换。我已将我的问题分解为模式匹配问题。现在,我正在尝试学习标签转换的模式。例如,对于相同的数据,我在原始HTML“ html,body,div,h1”中具有此模式,在转换后的页面“ html,body,div,div,div”中具有以下模式。我有14000个这样的数据点,我想训练一个模型,该模型将作为原始页面的输入模式并输出转换后的模式。我研究了一些NLP模型,但是或者我无法完全理解它们,或者它们不是很有帮助。 如果有人可以给我任何指示,或者最好是建议一些基于python的模型,那就太好了。
答案 0 :(得分:0)
您的问题尚不清楚,无法为您提供一些答案,但是从我的判断中仍然可以看出,您的输入将是字符串模式的html标签,而您的输出也将是html标签的字符串模式。
您可以将双向LSTM或CRF用于此类任务。阅读有关它们的信息,您将有一个清晰的主意。
但是,如果相同的输入模式给出多个输出模式,那么大多数ML算法将很难学习。您可以删除这些数据点,一切都会很好。