新闻中心

云渲染首页新闻中心瑞云动态视觉互联网的黄金时代 - 《VR与超级电脑、云计算、大数据与人工智能如何塑造互联网世界》

视觉互联网的黄金时代 - 《VR与超级电脑、云计算、大数据与人工智能如何塑造互联网世界》

2022-06-27 12:24:48

瑞云科技董事长梁幸尧先生 2016深圳文博会VR高峰论坛演讲

(为对主旨与细节做更充分的阐述，突破现场时间对图文材料的限制，本稿在演说逐字稿的基础上做了增修，并经讲者确认发表。）

大家先看一下视频！（放了一段幕后特效视频）

刚刚在前5秒就知道这一个视频是由电脑做出来的，请举手！

（两三人举手）在场99.5%的人都没有办法辨别，这个眼睛到底是电脑做出来，或者来自一个真实存在的人。在很近的将来，透过互联网传播加上虚拟现实，人类对于真实的定义会有翻天覆地的变化。

所以，我今天和大家谈视觉互联网。

我从1992年开始接触电脑图形图像，在二十几年的从业生涯里，我看到非常多创新，包括VR。1992年93年有过一波VR科技狂潮。那个时候，每个月最期待的就是《CGW》，美国一个权威的杂志《Computer Graphics World》。每个月就等那一本杂志，看看有什么新的东西，看完之后又万分的沮丧，因为这个月的又看完了。那个时候没有互联网，只能再干等一个月…...。从那个时候到现在，我们看到视觉科技的进展，给整个世界带来了非常多的乐趣。

这两年VR又火了。我自然非常兴奋。我对VR的憧憬，远远不只是在科技和商业方面，我很期待看到VR对人类生命、社会层面的影响。

我今天的题目是《视觉互联网的黄金时代：VR与超级电脑、云计算、大数据与人工智能如何塑造互联网世界》，看似很大杂烩，但我恰是要说说，为什么这几件事很有关系。

（刚刚刑总也提到的）VR所代表的电脑图形图像的技术创新，给我们带来的是新一代的计算平台。新一代计算平台里面，我们就难免不去谈到除了手边可以接触到的计算装置（头盔、手机、平板、电脑、可穿戴装置等）之外的一些计算，以及云计算。

先介绍一下，这几年我在做什么。我在做的是第三方的云渲染服务。什么叫渲染？

大家现在看到的是一部动画的制作过程：电脑动画工作室先把模型建好，场景建好，再把材质、颜色这些弄上去做一个草样。最后成片之前，必须确定每一秒里面每一帧上面的每一个像点到底应该呈现什么样的颜色，这要做大量的计算之后才能产出。

当我们看到一部迪士尼或者是皮克斯动画的时候，背后动用的是好几部超级电脑。像今年的Zootopia《疯狂动物城》，或者是去年的《大白》（超能陆战队），这些都至少动用了3到4部的超级电脑，每一部超级电脑要2000台左右的伺服器做计算，最后才能成片。

我们目前的服务模式是这样的，左边是很多的动画工作室、特效工作室，以及接下来的VR工作室，当要做比较高质量的内容，自己的计算力肯定是不够的。如果只用他们工作室里的电脑，像Zootopia这样的作品大概要算几十年可能都算不完。工作室的项目资料通过各种方式传到我们的超级电脑上，我们依据演算工具和参数很快完成，再交成片给他们。

我们现在自有的集群大概有2000多台顶尖的伺服器，我们还跟天河二号、阿里云等进行战略合作，目前大概调用一万台左右的服务器，在为我们的客户做服务。目前的成果是40多个国家，3万多用户，里面包括两个奥斯卡奖。

大家可能觉得，一万台云服务器？！太多了吧！其实一点都不多。

像皮克斯这样的公司，光是用来计算自己内部生产的几部动画片，所要准备的服务器大概就要3到5万台。像Weta工作室（在新西兰），自有的服务器也是在3-6万台。说来动画电影是个重工业。

这个是好莱坞5年之间大概700部片子的图表。把不同类型影片的票房、成本、存活率做了分析。最后分析下来结果是这样：

这是美国6大影业集团在投资上面的预算分布。那些需要用电脑去做的片子，像《哈利波特》《阿凡达》这些，占了不管是票房、预算数还是奥斯卡得奖数的大部分。在电脑图形图像相关的所有产业里，电影是最前沿也最成熟的一个，它的成长脉络很值得我们借鉴。换句话说，也能为VR产业的行程起到参考作用。

这是我92年的照片，那个时代是工作站电脑往Intel PC过渡的阶段。从这时开始，个人持有电脑的比例直线上升，造就了各种各样的创新。我负责规划和销售工业与学术影像分析、多媒体工作站电脑、动画与模拟软件的解决方案。其中，也包括乔布斯的NEXT工作站。

乔布斯重新发明了好几个产业，动画电影正是其中之一。电影史上，第一部整片都由电脑制作的动画电影《玩具总动员》，是乔布斯买了皮克斯公司之后，在1995年推出的。我把它所需的计算能量和2015年的《超能陆战队》做了一个比较，20年来多了80,000倍。我们可以保守想像未来20年，一部动画电影需要的计算量也至少增加80,000倍！

我们把未来计算能量的成长性，分别就视觉技术规格和内容精致度上，做进一步的探讨。

在技术规格上：首先是分辨率和每秒帧率。

今年李安做的新片叫《比利·林恩漫长的中场休息》，整个好莱坞媒体都在洗版报道这部新电影，树立了新的标杆，大家电影院看到的大部分是2k的，李安这部片子用的是4k 3D，换句话说就是8k，而且是120帧每秒，里面许多快速移动的物体，比如烟火、战争画面，每一个细节都不是模糊的，虽然动作很快，但每一个细节都是清晰的。

我前阵子去拉斯维加斯看NAB展，NAB是全世界最大的视觉设备展。我看了NHK推出的8K电视系统，从拍到传到制到播。在看播放展示的时候，我感动得眼泪差点掉了下来。我从没有期待我在看一个技术展示的时候，它竟在内容和情感上说了一个完全不同的故事。播放的主题原来并不算特别，就是一个师傅在握寿司。但透过8K和120帧的高帧率，我清楚看到他手上的厚茧以及茧上的纹路，让人想到他用青春岁月辛勤努力了十几二十年，握过多到数不清的寿司，才能受人尊敬，优雅地受邀站在聚光灯前。因为120帧，因为8K，整个故事脉络都在清晰的画面细节上瞬间说了出来。

这里说明高帧率如何影响画质，以高速移动的物体来说，右上角24帧每秒，飞机的翅膀是糊的。而右下角这个即使只是提高到60帧每秒，翅膀看起来就清晰非常多。

内容的细致度

内容细致度，对视觉体验感受影响很大。我们举动画里的毛发做例子。这张图说的是目前动画毛发细致度的世界纪录，统计每一只公仔角色上有多少根独立毛发。目前最高的世界纪录是《怪物大学》，一只怪兽身上有500万根独立的3D毛发！

这些毛发是用电脑做的独立物体，因为是独立物体，所以每一根毛发飘动时才都是千姿百态、清晰可辨、栩栩如生的。

我们做的渲染计算服务，按每台机器每小时收钱。影像越复杂，分辨率、帧率、细节精致度、计算量就越大，收的钱当然也越多…….我们很高兴看到现在的导演们都很有追求。(笑)

接下来我们谈谈，VR应用到底要多久会成熟的问题：

90年代的VR头盔是这样的，上面还要用线吊着，不然没有人脖子受得了。现在大家的商业眼光犀利，一看就知道这样是没有办法商用的。但是当时还是非常热，有一波波投资热潮。

这条是全球顶尖的科技产业研究机构-Gartner，每年都会发布的科技产业Hype Cycle报告，标出了不同的技术大概在生命周期的什么地方。这张图可以运用到很多地方，让我们在面对很多新技术和商业机会的时候，能够去驾驭它的投资周期，从宏观到微观做出很多判断和决定。

到这一波的VR浪潮，个人觉得目前这波还在概念前期，有小范围个别实用的机会，但离大规模实用还得等上几年。和90年代那一波的差别是，因为前些年有智能手机和可穿戴设备的铺垫，VR在机电元件和计算领域的其他基础相对是完备的，所以移动到Hype曲线后段大规模实用阶段的时间应该不会太长。

趋势关注

近期有些值得关注的趋势。这是Facebook推的360度相机Surround，他们要把这上面的软硬件全部开源，这是今年就会产生的事情。我们知道未来几年VR头盔上面最多的内容就是由全景相机产生的，所以一旦开源，全景相机的数量会增加非常多。

德国Fraunhofer公司在NAB首发的产品，他们号称会是未来品质最高的360全景相机。

这个是Nokia的OZO，在产品化的全景相机里面，它是品质最高也是价钱最贵的之一，6万块美金一套，4K的相机有8部，可以直接连网做VR直播。

现在我们看的高质量影像，最多用的摄像机就是RED。他们出了很具野心的8K相机叫做WEAPON，重装备武器的意思，大家可以想像拍出来的数据的量非常恐怖，需要的计算能量也非常恐怖。它们将会带动生态系里各种各样设备的研发跟创新。

如果觉得这些技术实践已经展望得很远了，那是因为我们还没看过LYTRO。

我参加了光场相机Lytro Cinema在Las Vegas的首发。到现在为止，电脑建模产生的影像和实拍影像基本是两个世界。但是光场相机把实拍和电脑图像整个做连接。传统实拍把景象变成平面化产出，光场相机产出的是包含所有空间座标在内的点云。实拍完成，电脑建模图像也完成了。

我们来看画面上这个展示：

一对新人在拱门前接吻，后面有个拿梯子工人走来走去。

以往的实拍摄影这只能作废NG，或是用后制人员一帧一帧人工擦掉。

光场摄影，只要把拱门到墙壁之间的所有座标点去除，画面瞬间干净！

这个光场相机拍出来的像素是七亿五千五百万，每秒300帧，后面直接接Google的超级电脑，这后面需要的计算能量可想而知。

很多人说，你们太疯狂了，做了一个恐龙级的巨大怪物。

Lytro的人说：呵呵，我们还打算做个更大的！

许多大厂投资的Magic Leap，产品还没上市就超过50亿美金，阿里一口气投了7亿美金。以后我们戴眼镜就能够进入到VR的世界。

我们来到NHK的8K电视系统，这张照片是它的转播车内部，感觉像是在超级电脑中心，或核子潜艇里。这就是十年后的电视世界，配上光纤到府，2020年之前，在座部许多人的家里就可以看到8K电视。

视觉大数据与人工智能AI

人工智能领域现在非常火，像大家最近看到的AlphaGo啊，在这之前，你首先要有数据。

我个人来看，未来10年最多的数据就是从视觉信号产生的，再加上今后可穿戴的视觉设备增加之后，每一个人的视觉能力就不再只是我们作为一个自然人所具备的那样局限。透过无人车技术所开发的视觉及处理能力，将在每个人身上就能拥有：包括多角度可见光电脑视觉、多光谱电脑视觉、大数据集成加人工智能等。

视觉体验在未来的十年会有翻天覆地的改变。我曾想过这样一个命题，如果一个小孩从出生到死亡都戴着VR头盔，那里面的世界才是真的世界呢还是外面的世界？这个问题真的很难说，留给大家去思考。

有一点我们可以确定的是，想象力在未来会越来越重要。以后的孩子更需发挥天生就有的想象力，而不是在亚洲式的教育体制里被做成罐头。

最后，我个人很期待在VR的世界里，看到人类的同理心和想象力能够有更大的发挥，从这里我们通向一个更美好的世界。

谢谢大家！

（鼓掌）

Oh, One More Thing. （走回舞台）

回应刚才有位讲者提到，建议多关注甚至参与国际间的专业学术会议，是保持行业竞争力很重要的作法。我个人推荐关注电脑图形图像界的SIGGRAPH和人机交互的CHI，这都是领域里顶级的学术会议。我个人也担任SIGGRAPH ASIA 2016年会的视觉互联网论坛主席，12月5-8号在澳门威尼斯酒店举行，欢迎大家来参加。