IPA(国际音标)转录与Tensorflow

时间:2017-10-11 18:02:38

标签: tensorflow nlp linguistics

我正在研究设计一个软件平台,以帮助语言学家和人类学家研究以前未经研究的语言。统计数据显示,大约有1,000种语言存在,而这些语言从未在各自的发言人群体之外进行过研究。

我的目标是利用TensorFlow创建一个平台,使语言学家能够更有效地学习和记录这些语言,并帮助他们为已经没有书面系统的人创建书面系统。他们目前完成这项任务的方法之一有三方面:1)记录母语人士的语言交流,2)听录音并试图将其转录到IPA中,3)从语音学中分析电话学语言的语音学最终为演讲者创建了一个书面系统。

我建议的平台会将研究时间从最短一年减少到最多六个月。在开始之前,我有一些问题......

培训TensorFlow将现场音频转录到IPA需要什么?这已经完成了吗?如果是这样,我将如何利用此项目的先前解决方案? TensorFlow是否可以实现这样的项目?如果没有,你会建议使用什么?

我对这个问题的重要性表示歉意。我在机器学习领域没有太多经验,因为我刚刚开始这个项目的研究过程。任何帮助表示赞赏!

2 个答案:

答案 0 :(得分:2)

我想我会先回答这个问题。由于这个问题很普遍,我的答案也必须非常普遍。

  1. 需要什么。至少你必须拥有一个预转录数据的大型数据集。理想情况下,大量的口语音频映射到拼音字母中的字符,因此系统可以学习单个字符的声音而不是整个转录的单词。如果不存在这样的数据集,则可以使用不太精细的数据集,将单个单词映射到它们的转录。那么你需要一个模型,即在代码中实现的实际神经网络架构。最后,您需要一些计算资源。这不是你可以随便训练的东西,你要么必须在基于云的机器学习框架(如Google Cloud ML)中花一些时间,要么建造一台相当昂贵的机器在家训练。

  2. 这已经完成了吗?我不知道。我不这么认为。已经发表的论文报道了在培训系统中转录语音的不同程度的成功。例如,http://deeplearning.stanford.edu/lexfree/lexfree.pdf似乎是因为你要转录的字母表是专门设计用来捕捉单词发音的方式,而不仅仅是写下你可能在训练这样一个模型时获得更多成功的单词。

  3. 是否可以使用TensorFlow。是的,最有可能的。 TensorFlow非常适合实现大多数现代深度学习架构。除非你为此目的设计一些非常奇怪且非常原始的模型,否则TensorFlow应该可以正常工作。

  4. 编辑:经过第1部分的一些考虑后,你将不得不使用一个数据集将口语单词映射到他们的转录,因为我希望单独发出的相同声音与同一声音时不同用在一个单词中。

答案 1 :(得分:0)

这实际上是由 CMU 的一个小组在 PyTorch 中完成的:https://github.com/xinjli/allosaurus