用代码构建机器心智，我们离这个目标还有多远？

发布时间：2018-09-03 18:16:15 所属栏目：评测来源：宋睿华博士

导读：9月15日技术沙龙 | 如何将智能化和运维工作相结合，实现智能运维！本文作者为微软（亚洲）互联网工程院宋睿华博士，微软小冰首席科学家。在中文里，「智能」和「心智」两个词意义相关却又有所不同。「智能」指的是智识与才能，现在通常用来描述某个对象

微软小冰从四年前的对话型 AI 到当前将创造力投射至诗歌、音乐、儿童有声读物、金融信息、电视电台主播、媒体新闻评论乃至辅助写作等多元领域，这表明，我们最初埋下的那颗心智的种子，现在似已破土露出了一点嫩芽。

下一站 3x3 实现更主动更具个性的人机对话

微软小冰的下一站在哪里？心智的嫩芽能继续成长壮大吗？答案是，我们正在建立「3x3」的人工智能发展图谱，以此来进一步加速小冰的升级速度。

第一个 3，是整合自然语言处理、语音和计算机视觉三大学科的研究成果，以多模态交互，训练小冰更快进步。

此前，上述学科都是在各自的轨道上独立发展。近年来，深度学习技术与算法的改进先后使语音识别和图像识别实现了显著的突破，人们翘首企盼自然语言处理技术也能达成类似的突破。过去一年里，我们结合了计算机视觉技术来训练小冰的诗歌创作能力，并以此评估多模态交互能否促进人工智能技术的演进，结果令人兴奋。

借助图像识别生成诗歌文本涉及到多项挑战，包括发现图像中潜藏的诗意线索（例如绿色可象征生机、阳光可代表希望）以及生成的诗歌既与图像相关，又能满足语言层面的诗意要求。

对于这些挑战，我们的解法是，通过策略梯度，将诗歌生成工作划分成两个相关的多对抗训练子任务，并提出了学习深度耦合的视觉诗意嵌入，训练过程中，机器可以连带学习图像中物品、情感和场景的诗意呈现。

我们还建立了两种指导诗歌生成的判别网络，包括多模态判别器和诗歌风格判别器。研究团队应用自己的模型生成了 8000 张图像，进行了大规模的实验，其中 1500 张图像是随机选取的。我们还邀请了 500 位人类受试者进行图灵测试，其中 30 名评估者是诗歌方面的专业人士，测试结果证明，我们的作诗方法比其他基准方法更高效也更具艺术性。
我们还极大地扩展了小冰的音乐能力。现实中，很多人喜欢唱歌，但只有极少数人才有能力创作歌曲，不仅如此，要想演绎出一首动人心弦的歌曲，往往需要一组音乐人通力合作——从作词作曲到编曲，从演唱、伴唱到演奏、录制，流程繁复又漫长。

微软（亚洲）互联网工程院在苏州的一支团队提出了一项关于流行音乐生成的新创意。团队提出了一个端到端的旋律及编曲生成框架，将之命名为「小冰乐队」。这个框架首先通过一个基于和弦的节奏及旋律交叉生成模型（CRMCG）来生成一段主旋律，再借助多乐器协同编曲模型（MICA）、根据多模态学习来生成不同乐器的多轨伴奏音乐。最后，团队还对现实世界的数据集进行了大量实验，结果证明了小冰乐队的有效性——相关研究成果已被团队写入论文《小冰乐队：流行音乐的旋律与编曲生成框架》（Xiaoice band: A melody and arrangement generation framework for pop music）。该论文还获得了 KDD 2018（国际数据挖掘与知识发现大会，Conference on Knowledge Discovery and Data Mining）「最佳学生论文奖」（Best Student Paper Award）。

第二个 3，是微软小冰所特有的三大「学习器」，生成模型、共感模型和三观模型。

「生成模型」从第五代小冰开始启用。在此之前，历代小冰使用的都是检索模型。虽拥有 10 亿级大数据语料库，但其中的每一句话都是互联网上的已有数据，小冰只是通过分析理解用户的问题，寻找语料库中最合适的话作为她的回答，也就是对对话语料库进行实时检索和选择。使用生成模型之后，小冰能够自创回应。她与人类交流的每一句话，都可能是这世界上从未出现过的。一年来的事实证明，生成模型使小冰快速学习了现有对话语料的交流模式，并能更好地应对相对陌生的话题。
此前，用户在与小冰对话时，偶尔会感受到压力。比如两者间的对话总是需要人类来提出话题，小冰来回应。就好像我们与感兴趣的异性搭讪，如果总是自己主动、对方被动，很快地，对话就会变得淡乎寡味、如同鸡肋——共感模型的开发就是针对这一状况。共感模型可以帮助小冰自行判断对用户的话题是否有感，在此基础上，小冰将会主动求证，进而引导话题的方向，增添新的聊天内容。这样就减轻了用户的压力，同时增加了聊天的自然度和趣味性。
在小冰持续进化的过程中，也不断有商业伙伴加入到我们的合作生态系统中。一些伙伴希望我们将小冰的能力用于孵化其他个性鲜明的人工智能角色。因此，我们也在不断研究如何通过对话来塑造个性——三观模型应此需求而生。

当前，这一模型已被应用于网易云音乐的多多和西西。两个角色的共性在于，他们都是爱听音乐的小鹿，都是男性，且年龄相仿。如何让他们在对话中给用户留下不同的印象呢？我们借鉴了卡通及游戏制作中人物设定的方式，给予了他们不同的性格和喜好。例如，多多喜欢喝咖啡，而西西不喜欢，因为皮肤本来偏黑，迷信喝咖啡会变黑。利用态度分析的技术，多多和西西会对用户提出的一组问题和回复进行分析，判断出用户对何种目标具有怎样的情感信息，例如，对咖啡是喜欢还是讨厌，进而根据人设的不同特点来影响对话，造成有区别有个性的回复。

三观模型将「体温」赋予了包括小冰在内的人工智能角色，并将通过态度的一贯性、延续性来逐步凸显角色的性格。

将三大学科成果的复合训练体系与微软小冰三大学习器相乘，必然会大大加速小冰的成长，也让我们朝向「用代码构建机器心智」的目标走近了一小步。总而言之，无论情感计算框架，又或是人工智能创造，都不是微软小冰乃至微软人工智能研发部门的最终目标，或许，构建「人工心智」（Artificial Mind）才是。

【编辑推荐】

为什么说软件开发者是有史以来最好的工作呢？
调查发现 Java 和 JavaScript 是企业开发的顶级语言
微软车库应用Sketch 2 Code:未来将替代前端应用开发者?
Angular 允许开发者在 Web 和移动应用之间共享代码
人工智能崛起因难度大，普通AI开发者将成香饽饽

【责任编辑：张燕妮 TEL：（010）68476606】
点赞 0

（编辑：晋中站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

TRX40主板首测为64核	搭载第3代骁龙8cx的骁
iQOO Z5x续航快充检测	拥抱无损网络 ODCC开展