人工智能对话是人工智能的一个子领域,专注于在人与计算机之间生成自然无缝对接的对话。
近几年,像亚马逊Echo和谷歌Home这样的语音助理的发展速度,如同火箭一般迅速,估计在2018年就有接近1亿个设备在家庭中使用,不仅如此,我们也已经在自动语音识别(ASR)、从文本到语音(TTS)和意图识别等方面取得了惊人的进步。
但是距离实现科幻小说中所描述的人机之间进行的流畅对话,我们仍然有很长一段路要走。在未来十年,我们应该看到这些关键进展,它们将让我们更接近这一长期愿景。
在过去几年里,机器学习,尤其是深度学习,已经成为了人工智能领域中应用非常广泛的技术。它已经在人脸识别、语音识别和对象识别等领域取得了重大进展,因此许多人认为它将解决人工智能对话的所有问题。然而,实际上它只是我们工具箱中一个有价值的工具。我们需要其他技术来管理有效人机对话中的各个方面。
机器学习特别适合解决在大数据库中查找模式的问题,或者就像图灵获得者Judea Pearl说的那样,机器学习实际上是解决曲线拟合的问题。人工智能对话中有几个问题都很好地反映了这类解决方案,如语音识别和语音合成。该技术也已应用于意图识别(将人类语言的文本语句转换成用户意图或愿望的描述)并取得了很大成功,尽管使用此技术捕获具有固定形态或语义敏感而模棱两可的自然语言时存在一定的局限性。
然而,在计算机对话中确实存在一些不太适合机器学习的问题。人机对话由两部分组成: l 自然语言理解(NLU)——理解用户所说的话 l 自然语言生成(NLG)——为用户制定合理的话术回应 近来,大部分的注意力都集中在了*部分,但是其中仍然存在很多挑战,而这些不适合机器学习的原因在于话术回应生成不仅仅是收集和分析大量数据的产物。在未来几年,这种持续、有状态的对话挑战仍然需要更多地关注NLG和对话管理部分的问题。
作为技术人员,我们常常被驱使着试图用计算机来解决每一个问题。然而,需要注意的是,有些领域,如游戏、娱乐或销售和营销,总是希望对计算机回应的声音和个性进行巧妙的设计来匹配它们的品牌。此外,已经注意到的是,试图生成全自动自然语言生成可能不是*的,因为*自然的人类对话不是重复很多以前对话的结果,而是通过考虑当前上下文而形成的。
,这些创造性的输入必然还处于人类写作层面,系统可以识别每个上下文的意思,并定义对话应该如何进入下一个话题环节。我们似乎不太可能在未来几年完全消除这种循环,因此当我们展望未来时,我们将希望建立支持更具可扩展性和广泛机制的方法来定义一个人的声音和音调。