2018年04月19日,亚马逊正在通过Sumerian大举进军增强现实和虚拟现实。这是一个完整的开发应用,可为智能手机和头显开发AR和VR应用,而且不用多久,开发者就可以通过Sumerian开发直接运行在你浏览器的AR/VR应用。
在这些体验之中,Sumerian可以创建充满“Host”的沉浸式虚拟世界,一种由驱动亚马逊Alexa的相同人工智能提供支持的3D角色。
Sumerian是一种跨平台工具。亚马逊没有选择开发自家品牌的设备或头显,而是为市场提供集成服务。Sumerian基于开源网络标准,并且支持苹果ARKit和谷歌ARCore,这意味着应用开发者可以开发出运行在安卓,iOS,Oculus Rift和HTC Vive等平台的Sumerian应用。
作为Amazon Web Servics(AWS)的新成员,Sumerian采用了基于用量的定价模型而非订阅模型,而且Sumerian可以连接至其他AWS服务。
亚马逊于2017年11月推出了Sumerian的预览版,并计划在5月正式上线。在这之前,PCMag深入探访了Sumerian和数款早期的消费者应用。以下是映维网的具体整理:
亚马逊Sumerian的总经理Kyle Roche向我(Rob Marvin)演示了这个3D应用开发平台。我体验了Sumerian的拖放应用编辑器和3D对象库,用于编写复杂动画场景脚本的Visual State Machine,以及创建人工智能Host的过程。对于Host,你在这些虚拟体验中时将能与它们进行完整的对话。
我同时与负责亚马逊AR/VR,AWS Mobile,Serverless Computing和物联网部门的副总监Marco Argenti进行了交谈。亚马逊对Sumerian寄以厚望,并且认为结合了AI的增强现实和虚拟现实将在我们的联网未来扮演重要角色。
1. 为什么亚马逊要押宝AR和VR?
亚马逊从来都不畏惧进军一个全新的领域。我们只需看看全食(Whole Foods),亚马逊视频,或者他们在医疗保健和医药行业的努力即可明白这一点。
Roche开玩笑说,Sumerian这个名字取自于科幻小说《雪崩》(亚马逊同时正在将其改编成影视作品),而“Host”的概念则源于HBO的科幻剧《西部世界》。但Argenti表示,亚马逊决定进军AR/VR是因为三个关键的要素:智能手机AR的兴起;VR在B2B市场的广阔机遇;这可以帮助AWS用户解决一系列的痛点。
Argenti解释说:“信号已经足够明显,所以我们开始进入设计Sumerian的过程。典型的亚马逊做法是,我们以逆向的方式先研发消费者用例,然后组建一支构建产品的开发团队。”
B2B应用包括交互式数字招牌(如《银翼杀手:2049》中会说话的巨大全息图广告),虚拟培训,以及一系列的工业物联网用力,比方说利用传感器来创建数字孪生和复杂的模拟。Argenti同时强调了智能手机AR已经通过ARKit和ARCore来到了一个关键的临界点。
他说:“在与现实交互和探索周围的世界方面,摄像头正在日益变成一项十分强大的工具。快速的图形处理器可以实时叠加信息,而传感器可以帮助构建一个3D现实。其思想是,数以亿万计的用户拥有一个高质量,高分辨率的情景感知传感器。”
2. 亚马逊是如何构建Sumerian?
亚马逊最初是在2016年下旬开始思考AR和VR可以为AWS用户带来的帮助,然后在大约一年后的AWS re:Invent大会中亮相了一个预览版。在这期间的时间里发生了几件事情。
首先,亚马逊收购了一家破产的瑞典初创公司Goo Technologies。他们的3D开发环境Goo Create成为了Sumerian集成开发环境(Integrated Development Environment,IDE)的基础。
Goo Create的视觉三维建模同样是基于网络的云服务,但亚马逊更进一步,他们将后端迁移到了AWS。将其构建在已有的可扩展云基础架构基础上存在大量益处,但重要的是这可以大幅缩短延迟。Roche表示,Sumerian最大的卖点之一是,对于一个如其强大的编辑器,你无需下载或安装任何东西。在演示期间,Sumerian可以在数秒内完成浏览器URL的加载。即使是进行实时自然语言处理(NLP)和渲染精巧的动画也不会减慢其速度。
作为一个低码开发平台,Sumerian可以支持几乎没有开发经验的用户,而程序员和数据科学家可以通过可编程的API和Sumerian的命令行界面来自定义场景和编写复杂的应用逻辑。
Argenti表示:“我们渴望一种你点击一下就可马上进入场景的体验。然后为你提供可以拖放对象的3D图形工具。Sumerian是一个可以联想当动作和事件发生时可以出现什么情况的视觉工具,这一切可能无需编写任何一行代码。”
3. 创建3D Sumerian应用
亚马逊对Sumerian的整体设计理念是尽可能地巩固创作体验。Roche表示,他们希望可以掩盖大量重复的开发任务,所以无论你最终选择发行的平台是什么,构建Sumerian应用的基本过程都相同。
你可以选择一个模板,或者直接开始创建一个新场景。Sumerian的部分默认模板包括办公场所,培训室和仓库,货船和户外篝火等场景。主编辑器支持WebGL和WebVR,其布局方式与我们测试过的许多低码工具相同。
左边是一个实体面板。一个实体本质上是数据库中的一个表格,可帮助你管理导入应用程序的数据。下方则是asset窗口,你可以在其中搜索要拉入场景中的对象,或者打开Sumerian3D模型的完整asset库。Roche表示,Sumerian提供了一系列的开源对象库并且与Sketchfab API集成。亚马逊也有兴趣整合诸如TurboSquid和谷歌Poly AR/VR对象库等平台。你同时可以将自己的asset导入到Sumerian中,然后将它们放入场景。
Roche解释说:“asset面板可以作为调整管道的拖放区。你可以拖放大多数常见的3D文件格式。我们会转换它们,对它们进行优化并为你储存它们。我们在后端做的一件事情是,如果你在多个场景中使用相同的asset,我们实际上会为你创建一个参考链接。”
屏幕中间是主画布,你可以将asset和3D模型拖放到场景之中。画布的角落有一个按钮,用于启动场景的WebVR预览。
其下方则是时间线编辑器,工作原理与视频编辑工具类似。当你拖入动画和声音并使用Visual State Machine创建场景,Host行为和事件进程时,它们都会显示在时间轴中,你可以通过时间轴调整一个状态将如何过度至另一个状态。
右侧栏是inspector面板,其包含你正在查看的组件详细信息,以及你可以如何定制它们。对于可能有一百种不同变体的模型而言,你可以在不实际触及场景的情况下调整属性和纹理等内容。
4. 亚马逊的策略:海纳百川式的集成
Sumerian不仅在3D开发领域发支持Unity,Unreal和Vuforia这样的平台,同时还在更广泛的AR/VR生态系统中兼容ARKit,ARCore和Windows Mixed Reality。Roche表示,Sumerian将“开发一次,随处运行”的理念应用于AR/VR应用程序,特别是针对企业开发者。
Roche指出:“专业3D开发者或专业动画师都有一个合作的工作室,但大多数(AWS用户)都是网络或移动开发者,在工作中学习到像Unity这样的工具。Unity很优秀,但要真正精通它要比把他们的技能带到3D困难得多。所以我们决定把重点放在这一部分。”
Sumerian支持多种核心开源标准:WebGL,WebAR,WebVR和即将推出的WebXR框架。 WebXR框架可以把AR/VR应用带到不同平台的所有设备与浏览器,而万维网联盟(W3C)将在未来几个月内投票批准WebXR。届时,Sumerian应用将能够直接在浏览器中运行。
在WebGL,WebVR和WebXR之间,Sumerian完全与平台无关,而且Sumerian已经发布了本地wrapper来直接与ARKit和ARCore集成。Roche表示,Sumerian可以为任何支持WebVR的平台构建应用,这不仅只是包括Oculus Rift和HTC Vive,同时还包括三星Gear VR和谷歌Daydream View等等。另外,Sumerian正在就WebXR与谷歌Chrome团队进行紧密合作,开发基于浏览器的应用程序。
另一个主要角色是微软。尽管亚马逊尚未宣布Sumerian将与WMR生态系统集成,但Roche确实提到最新的微软HoloLens RS4版本包含了WebAR支持,而这意味着Sumerian可以运行HoloLens的场景。亚马逊同时在观察Magic Leap和Meta等公司的头显。
Argenti说道:“我们做出了选择,我们本可以进行自研,并推动开发者走向这条道路。但我们希望可以尽可能广泛地支持一个巨大的市场。当一切都整合至WebXR时,完整的设备生态系统就会随之而来。我们瞄准的是底层基础。”
5. Sumerian的AI Host将改变一切
Host是Sumerian最独特的卖点之一。Host是一种可以放置在AR或VR场景中的3D动画角色。用户可以向Host提出问题,而开发者可以编写一套复杂的动作,行为,手势和移动方向,因为它们可以进行对话,并且会围绕场景四处走动。Roche指出,亚马逊吸收了大量的灵感,包括《第二人生》和《模拟人生》等在线游戏。
Sumerian目前有两个默认Host:克莉丝汀(Christine)和普雷斯顿(Preston)。但亚马逊将在今年推出一系列的Host。这些AI角色存在很多细微的差别。Roche向我展示了一个关于克莉丝汀的演示,他将Host拖到场景之中,并打开inspector面板来定制她的情绪,面部表情和手势。Sumerian可以自动生成手势,Host会根据对话的自然语言处理进行对话。所以如果克莉丝汀对你说“嗨”,这可能会触发挥手动作。
借助一个名为兴趣点的系统,你可以在编辑器中选中一个复选框,令Host的眼睛始终看着相机。所以如果你佩戴HTC Vive Pro在360度的空间中走动,Host将跟随你。如果这是一款与智能手机摄像头相关的AR应用程序,亚马逊的Rekognition深度学习系统则可以运行面部分析,判断你的位置和你的面部位置,然后令Host直接透过屏幕看着你。这会提供一种眼睛接触的幻觉。
用户还可以使用亚马逊的Maya SDK从零创建自己的定制Host,但亚马逊已经提供了基本框架,方便你从中调整Host的外观,口音和语调变化,以及语言等等。从长远来看,亚马逊正在考虑如何帮助用户更轻松地创建Host。Argenti谈到了用于第一人称角色的Host生成器概念,或者使用面部识别来匹配渲染角色和真实人类。
Argenti表示:”结合Rekognition,如果我们在程序上尽可能多地生成这些角色,我们可以尝试将你与最接近的角色进行匹配。我们可以拍摄你的照片并运行反向面部识别,并将其与随机角色进行匹配,从而提供一个看起来像是你的Host版本。”
Argenti解释了集成其他AWS服务可以令Host更加逼真,比如说Amazon Comprehend自然语言处理服务。Comprehend可以分析文本并提取诸如心情和情绪分析等元数据。所以根据对话者的情绪,Host可以有不同的面部表情或表达方式。
Argenti说:“如果对话者生气了,也许Host可以令他们平复心情。不仅在我们传达信息的方式上有所发展,我们通过深度情感分析来呈现这一点的方式上也有进步。”
6. Alexa背后的语音服务
能够进行对话的Host才是好NPC。与在WMR中激活Cortana小娜的方式不同,你不能在Sumerian应用中通过说“Hey Alexa”来激活语言服务。相反,亚马逊采用了Alexa背后的自动语音识别和自然语言理解API来帮助Host进行对话。
Sumerian与Amazon Lex和Amazon Polly进行了集成。Polly是一种文本到语音转换服务,可将文本转换为Host的语音脚本。Lex则是一个用于构建会话界面的NLP引擎,这是Host理解和响应用户说话内容的方式。Sumerian目前已经通过Polly支持了超过二十种语言,而且嘴唇同步功能可以令Host的嘴巴动作与语言或语音节奏相匹配。
Argenti说道:“当你沉浸在AR或VR中时,语音是一种真正有意义的媒介。如果你看到一个角色站在那里,我会希望与它进行交谈。所以我们从人工智能团队中挑选了两个这样的工具,并试图将它们人格化。我们希望场景能够倾听并回应我们。因此,你可以像聊天机器人一样将整个Lex流程拖放到角色上。从很多方面来讲,它比构建一项Alexa技能要容易得多。”
7. 沉浸式世界中的脚本逻辑
Sumerian的Visual State Machine是你设计复杂序列和虚拟模拟的工具。借助视觉时间线编辑器或完整的JavaScript界面,应用创建者和开发者就可以编写脚本逻辑来控制场景中的Host或其他对象。例如,Sumerian包括一个可以编写脚本的飞行无人机对象。
当你把真实世界的对象引入等式时,这一切都将变得更加复杂。由于Argenti同时负责AWS的无服务器计算和物联网部门,他认为将Sumerian连接到Lambda和Greengrass这样的AWS服务中可以为复杂模拟带来更多可能性。Greengrass是机器学习模型在物联网设备上进行本地运行的一种方式。我们可以设想一个根据工厂车间机器数据进行训练的ML模型,然后我们把这种算法带到Sumerian,并且使用AI来模拟同一台机器。
Argenti说道:“AR和VR中真的可以存在一个模拟世界,每个角色或对象都能通过现实世界中的机器学习训练变得智能起来。最终,你将希望尝试以最逼真的方式来重新创造现实。今天我们可以进一步靠近,但从行为角度来看,它还不足以模拟实际情况。”
8. Weatherbug的模拟气象学家
当亚马逊向我演示Sumerian应用时,我十分惊讶于他们展示的第一个应用是与天气有关。
但正如WeatherBug总经理Olivier Vincent所解释的那样,虚拟现实与天气数据的结合比你想象中更为合理。由于人们已经开始通过应用程序查看天气状况,天气预报已经丢失了其中一个亮点:站在天气屏幕前的当地天气预报员。
Vicent说道:“天气就是告诉你某个时间段内某个地方将会发生什么,你可以在应用中以一种2D方式进行快速查看,但我们知道一直以来天气预报员都十分受欢迎。所以我们的想法是以一种更加身临其境的方式重新引入天气预报员。”
WeatherBug构建了一个包含虚拟新闻工作室的Sumerian场景,并配有一个主播台和天气屏幕。然后他们把克莉丝汀当作气象学家。这款应用可以根据你的位置提取当前的天气数据,然后Host将以一种个性化的方式来向你播报天气。在WeatherBug主应用中,Vincent启动了一个展示曼哈顿3D模型的VR场景,这时克莉丝汀会向你播报天气,并且提供最高温度和最低温度等其他信息,而你甚至可以看到飘落的雪花。
9. 艾迪生:虚拟看护者
位于新墨西哥州的健康管理科技公司Electronic Caregiver则开发了一款十分不同的Sumerian体验。
这家公司为老年人提供了包含医疗帮助的可穿戴设备,他们同时开发了一种名为Addision Care的解决方案,目标是降低家庭护理成本,并使用会话式AI来评估老年患者跌倒的风险。Electronic Caregiver为药店,医院和临床医生推出了一个终端机,通过机器学习来分析患者的步态。他们开发的Sumerian体验同时应用了一个自定义的Host:艾迪生(Addison)。Addison将会帮助用户完成关于跌倒历史的口头调查问卷。
Electronic Caregiver的技术总监Bryan Chasko表示:“让老年人接受技术并不容易。随着这方面越来越好,语音技术将会涉足这个市场,你将不再需要让他们坐在键盘和鼠标前面,通过艾迪生,他们只需进行对话即可。”
Electronic Caregiver制作艾迪生已有数年时间,利用Amazon Lex和Polly来开发这个3D角色。该公司是其中一家帮助亚马逊构思可以通过Sumerian解决的难题,以及如何自动化AR/VR应用创建流程的AWS用户之一。
Electronic Caregiver的一名虚拟开发者Judah Tveito表示,Sumerian将他们需要投入数月时间的流程转化为只需几次点击的体验。Chasko指出,该公司还在开发艾迪生移动应用。Electronic Caregiver将艾迪生定位为家庭虚拟护理人员。对于独立生活的老年用户,AI可以提醒他们服用药物,或者在其跌倒或出现其他医疗紧急情况时自动拨打911(美国报警电话)。
Chasko说道:“我们认为这可以解决的最大问题之一是,老年人独自生活时的隔离感,我们希望提供一个全天候的家庭环境,当你没有与艾迪生对话并且在浴室跌倒时,只需大喊‘我需要帮助’就可以挽救许多生命。”
10. 赚钱机器:B2B和物联网
亚马逊谈到很多关于交互式数字标识的场景。想象一下,当你在酒店大堂,商场或体育场中散步时,你可以在屏幕中看到陪你一起走动的Host。这听起来可能有点令人毛骨悚然,但Host可以处理位置等情景信息,并将广告转变为个性化的对话。Argenti认为Host是公司品牌的虚拟扩展,可以根据业务需求进行改变。
亚马逊正在为Sumerian的用户探索一系列的B2B和物联网应用。在工业方面,Argenti表示诺基亚整合了一个包含传感器和可视化系统,并将其用于监测集装箱内的环境,这样工作人员无需实际打开集装箱即可测量内部温度和减震效果。
他说:“你可以想象这么一个AR世界:我们将数百万台设备连接到AWS,并从现实世界获取大量的感官数据。然后,我们可以使用AR进行三角测量来识别对象,并在其上显示相关信息。从服务和维修到监控,安全等各种服务,这存在很大的适用性。”
Sumerian同样存在广泛的电子商务可能性。对于任何来自亚马逊购物目录的Sumerian 3D模型而言,如果将其添加到AR/VR场景中,你都有可能获得开发者推荐费用。这是AWS上的企业和独立开发者通过Sumerian应用实现营收的一种方式。
Argenti设想了Sumerian和亚马逊零售部门之间的众多交叉机会,他说:“我们可以利用我们零售团队在家居装饰,家用电子产品,以及其他高价值物品方面的一些工作来创建3D模型。然后你可以用它们来拍摄一个照片级真实的透视空间。我该如何设置一个现代化的阁楼呢?我们应该摆设什么家具呢?”
11. 一切都回到AWS
为所有AR/VR设备和平台搭建桥梁是降低AR/VR开发门槛的一种明智方式,不仅对B2B公司是如此,对开发者来说都是如此。令亚马逊大力发展Sumerian的一点是,这可以推动更广泛地AWS服务采用。对于尝试使用新服务的现有用户,以及新Sumerian用户来说都是如此。后者将开始使用亚马逊的存储,计算,处理,人工智能和其他服务,因为它们都融入了之中体验。定价模式同样很有吸引力,因为亚马逊不征收预付费,AWS只按照你的使用量进行费用。
这只是所有流经AWS大环路的一部分。数据来自于物联网设备,通过AWS Lambda函数进行处理,部署在AWS Greengrass以进入训练机器学习模块的AWS IoT,并且最终作为3D模型成为Sumerian中的AR可视化。
12. 亚马逊对AR/VR未来的展望
亚马逊希望Sumerian能够刺激行业制作3D大众产品,以及降低成本。在AR方面,Argenti表示由于ARKit和ARCore的原因,基本的支持者已经到位。他指出,当开发者提供足够的应用和视频内容时,行业将出现一个拐点。在VR方面,亚马逊希望看到的重大变化是硬件价格下降,变得轻便和无线。
Argenti说:“当这一切发生的时候,以及当你像佩戴眼镜一样佩戴VR体验的时候,VR将实现腾飞。我认为它必须要像在平板电脑上观看视频或打开电视机一样自然,只有这样才能达到与其他媒介相同的主流消费水平。围绕内容创建者,广告客户,终端用户,以及迎合这些用户的公司来开发一个完整的生态系统就是具体的操作方式。”
Argenti还强调了VR和MR中沉浸感的重要性。亚马逊为Sumerian设置的另一个目标用例是教育和培训。他指出,无论你是在学习如何使用医疗设备,还是说学习新的语言,这一切都是为了令你感觉自己仿佛置身于一个真实的环境之中。
他说道:“你足不出户就可以坐在一家法式小酒馆里学习当地语言。Host会用法语与你进行对话。菜单是用法语书写。然后在这个现实中,你可以触摸一个菜单并看到相应的翻译,将你的手指放在一个条目上即可看到单词变成不同的语言。学习主要是情景化的学习,所以作为一种学习工具,能够涉及你所有感官的体验将十分强大。”