× 快速导航
新闻资讯
分类
NG体育为什么是微软造出了“下一台 iPhone”?
发布日期:2023-05-03 16:10:23

  NG体育初代 iPhone 的出现重新定义了触摸屏、智能手机,也重新定义了我们的生活。

  如今,出行、支付、沟通、 浏览信息等等这些生活中必不可少的环节都由点按和滑动组成,「触摸」这一新型人机交互模式改变了整个世界。

  是 VR、AR,还是脑机接口?或许都不是。现在看来,最现实的答案很可能是大语言模型——用「对话」,取代「触摸」。

  这里的自然用户界面指的是用户可以用本能、自然的方式与机器进行交互,而不是说界面本身是自然的。

  例如多点触摸的触摸屏、人脸识别、Kinect 上的动作捕捉就是典型的自然用户界面技术。

  其中,自然语言用户界面(NLUI)是一个重要的研究领域。自然语言用户界面允许用户用「对话」——人类最自然的行为方式操作机器,这会给人机交互带来极高的便利性和易用性。

  此前,自然语言用户界面发展最大的障碍是机器「听不懂人话」,而现在,以 ChatGPT 为代表大语言模型让这一切有了落地的可能。

  随便和机器人聊几句话,就能颠覆世界了?微软随后拿出的 Copilot 证明,确实如此。

  Copilot 用一个简单的 Demo 完美诠释了自然语言用户界面的便利性:简单输入自己的想法就能做出一份完整的 PPT、数据透视表,一句命令就能得到一份数据报告,我们可以用「对话」命令 AI 代替我们完成很多工作。

  做一个简单类比的话,ChatGPT(大语言模型)是「触摸屏」技术,而 Copilot 就是「iPhone」。Copilot 充分展现了人类这一对新技术的想象力。

  这里就引出了一个新的问题——当我们拥有一种全新的人机交互方式时,设计师应该怎样设计产品,以适应新的交互逻辑?

  我们可以对当下计算机正在处理的事情有着很大的掌控权,例如当你点下 X 时,意味着计算机马上要关闭一个窗口(当然,有时候它会卡住);当你选中一列数据后再点下柱状图的图标,计算机就会为你生成一个图表。

  经过多年的图形界面锻炼,你的大脑早已明悉手推车图标是购物车、放大镜是搜索。

  但到了 Copilot 之类的 AI 应用上时,「所见即所得」的法则开始失效,因为大语言模型是个黑箱,没人知道它在怎么运作,下一步又会展现出什么东西。

  同时,AI 在计算时需要时间,人们在点击与出现结果之间还会有一定的延迟,如何填补这段迟滞等时间,也是建立人机信任的关键环节。

  我们过去固有的认知是 AI 应当完全取代人类的工作,实现完全的「自动驾驶」。

  因此人们理解未来在使用软件时就只有两种极端的情况:1. 完全人工操作,2. 完全由 AI 操作。

  但其实,在这两端之间还有非常大的空间NG体育,即以人类为主导、AI 辅助工作(AI 辅助驾驶)。

  基于这种新的使用场景和应用理念,微软做了很多深入的学习和研究,希望设计出能帮助更多人适应的全新交互方式。Copilot 便是微软交出的第一份完整答卷。

  Copilot 是自然语言式用户界面(UX)的先驱,具有和初代 iPhone 一样的颠覆性用户界面设计,有再次可能改变人类与技术的互动方式。

  在此之前,设计师还需要对它的力量进行重新界定。微软从视觉标识到交互设计的方方面面都进行了重新思考。

  Copilot 一词本身其实就蕴含了微软在设计 AI 交互时的核心原则:从「AI 自动驾驶」过渡到「AI 辅助驾驶」,确保人类始终掌控方向,引导 AI 协助工作最终实现个人目的。

  所以,在打造用户体验时要培养用户对这种关系的理解,帮助人们接受新的思维模式。

  微软提出了一个名为「适当信任」等概念,即让人们充分了解新技术能干什么,以及它的局限,从而让用户能用恰当的方式使用它NG体育。

  Copilot 可能会出色地完成任务,但也可能产生不完美或需要完善的答案。只要人们越了解这些事情,他们就越善于使用它。

  在生活和工作中,我们的生产力体现在不同层面上:有时候我们要关注细节,有时候我们需要看到整体,或制定策略。

  一些需求(一天交两份 30+页的业务 PPT)常常超出我们的认知范围,导致压力、焦虑和生产力的流失。

  微软根据用户不同的认知需求和能力,将大型语言模型的能力划分为三个纬度,以提高它在应用时的全方位生产力:

  沉浸式体验适用于工作涉及多种工具,需要深入的、上下文理解的情景,有时还要结合创造、协作和理解的需求。

  你可以脱离既有的限制,在一个全屏的环境下把大型语言模型与你的实际的数据和情境相结合,帮助你提高技能和生产力。

  相比之下,辅助式和嵌入式体验适用于那些需要在特定应用中为特定目的加快工作速度和质量的场景。

  当你需要专注于更单一的工作类型,例如在 Word、Excel、PowerPoint 发挥创意等时刻,Copilot 就能以的组件或模块的形式呈现。

  简单来说,Copilot 通过组合三种纬度的体验,让用户可以与 AI 进行友好地协作,从而实现提升生产力。

  在设计 Copilot 体验时,微软先设定好了一个强调人类主动性的道德框架,再在框架内完成每个设计和工程决策。

  「我们是完全隐藏 AI,只给用户一个写着『总结』的按钮?还是给他们一个带有建议的开放式文本框?给用户的控制权越高,用户的责任就越大。」

  最后设计师们达成了共识:如果他们要让用户掌握「方向盘」,他们就不能把 AI 隐藏在一个按钮后面——它的功能必须被访问和理解。

  自然语言是释放模型能力的好方法,但前提是用户理解轮流互动的本质和重要性。

  正如前文所言,我们熟悉大多数技术产品都是确定性的:相同的核心互动以精确且可重复的方式发生。

  为了让用户能更好地适应这一特点,微软在设计会话式用户体验时加入轮流对话互动,让用户能自由探索模型的功能,并且在必要时将用户引导回预期的用例。

  对大多数人来说,与大型语言模型互动应该是一种当新颖、甚至可能令人生畏的体验,因为我们从未有过指挥 AI 工作的经验。

  回到产品上,微软围绕零状态设计、错误通知、分享预期用途、提示建议都做了设计优化,已实现自然而然的用户教育。

  以零状态设计(即在进行任何互动之前用户看到的屏幕内容)为例,设计师花了大量时间思考,如何利用这个空间提醒人们关于模型可能会犯错误,以及有必要核实输出结果。

  这样,当用户初次上手产品时就能比较清楚地知道,他需要握紧「方向盘」,而不是任由 AI 自由发挥。

  另一方面,AI 模型输出的内容质量还取决于用户输入提示的质量,但提示的写作是一项需要用户花时间去掌握的新技能。

  这里就可能会产生一个矛盾循环:因为用户不懂得提示技巧,所以他生成出比较差的内容,又因为得到内容效果不佳,用户不愿意花心思去打磨提示词。

  为了解决这个问题,微软创建了一个提示功能菜单,并附上提示建议,帮助初次使用 AI 工具的用户使用更长、更详细的提示以带来更好的结果。

  随着人们对这项技术逐渐熟悉和适应(未来每个人都会是提示工程师),这套设计可能会不断地迭代和改变,但在目前,这仍然是 AI 产品设计中至关重要的一个部分。

  经历过拨号上网年代的朋友应该清楚,计算机的处理速度在这些年发生了多大的变化。如今,人们普遍期望能在计算机那得到即时的响应。

  然而,对于大型语言模型来说,由于它处理的信息规模非常庞大,生成回应可能需要比我们预期的时间更长。

  因此在设计 AI 产品时,设计师还要给用户做适当的引导,帮助用户以比较愉快的心情地渡过这段等待时间。微软设计师给出的解决方案是利用这段等待时间增加系统的透明度。

  例如可以从弹出对话框提醒人们核实回应的事实、介绍有关模型是如何生成答案等,把简单的等待变成期待。

  另一方面,用户在使用 Copilot 时最大的风险之一就是过度依赖 AI 模型。

  因为 Copilot 并不是「自动驾驶」,它可能产生不准确或错误的答案,所以需要人类的监督和协作。

  微软给出的解决方案是把 Copilot 的结果链接到引用素材,并在某些情况下,如果你将鼠标悬停在引用上,还会分享更多关于来源的信息。

  但这还不够,Copilot 需要人类做更多的审查工作,因此微软有意地创造了一些阻碍来实现这一目标——强制的弹窗。

  当你准备分享某个内容之前,Copilot 会询问你是否已经核实了事实或是否有人类参与审查,让作为驾驶员的你再做一次 Double Check。

  视觉效果方面,微软想通过颜色和图标等元素,在微软产品中创造和加强 AI 的存在。

  设计师运用产品品牌的颜色作为鲜艳的点缀,使用户在与 AI 功能互动时产品更具生命力。

  并且当 AI 模型正在工作时,会明确地显示出 AI 模型正处于活跃状态(尽管它还没及时地处理好结果),让它与周围的界面区分开来。

  视觉识别还可以清楚地显示出 AI 助手何时正在使用或已生成内容,使得用户可以凭借自己的判断来评估输出结果,从而在两者之间建立信任。

  对于产品创造者来说,像现在这样的时刻是非常宝贵的。能真正改变游戏规则的技术只出现过寥寥几回,我们很幸运又见证到了一次NG体育。

  虽然与大模型产品相关的部分设计理念还很新、不够完善,但部分设计已经可以投入到实际的应用场景。

  微软设计团队认为,当下的产品设计师不能闭门造车,相反的,他们要积极寻求用户反馈,怀着学习的态度,并积极公开设计,分享彼此的经验。

  最重要的是,这些产品设计都要从普遍用户的需求出发——技术可能会不断变化,但这些核心的需求往往是不变的。