Intel ChinaJoy2021分享会:游戏性能很重要! _ 游民星空 GamerSky.com
gamersky
活动主题:ChinaJoy 2021 分享会
时间:2021 年 7 月 30 日 14:00-15:30
演讲嘉宾:
吕 冬:英特尔市场部总经理
鞠胜利:英特尔计算平台产品总监
卢卷彬:英特尔游戏合作技术经理
徐立飞:英特尔 NUC 产品经理
英特尔 吕冬: 各位媒体朋友大家好,首先,我给大家简要介绍一下英特尔当前在整体游戏市场发展的格局,以及英特尔公司持续在电竞、游戏市场的一些投入。

这一张图当中大家会看到有跟多的数字,包括我们的全球游戏市场的收入是 8.7%的年复合增长率,到 2023 年将实现 2000 亿,全球的玩家数量有 5.6%的年复合增长率,到 2021 年的数字是达到了 14 亿。当然这当中非常核心的一个数字,是我们在中国区占了绝大多数的占比。大家可以看到中国区游戏市场收入占到全球市场的 25.9%,包括从游戏玩家人数来讲,亚太区是 55%,中国在这当中也是贡献最大的。

另外是关于 PC 端,因为我们今天主要讨论的是基于 PC 端的游戏。其实我们客户端计算事业部的产品营销,也在不断创下历史新高,我们已经连续 10 个季度超过预期,我们的客户端事业部营收达到了 101 亿美元,而且笔记本电脑的 CPU 出货量有 40%的增长。Tiger Lake 是我们最新发布的产品平台,我们的出货量也达到了 5000 多万台。
另外,对 PC 市场的持续增长,我们抱有非常大的信心。大家知道疫情对整个电脑销售,无论是家用还是商用电脑都有非常大的增长。另外一个是全球的电脑保有量,有 4 亿的台的设备已经达到了五年以上的时间,也达到了创新的时间点。此外,最近微软已经发布了 Win11,等等一系列产业上的变化,对提升我们的电脑产业的更新换代有非常大的帮助。
因为我们今天是来到 ChinaJoy,我们除了讲讲自己的产品有哪些非常好的超出预期的产品,来帮助我们的游戏玩家打造更好的游戏体验,另一方面,我们也重点给大家介绍一下英特尔公司在电竞方面有哪些投入,而且实际上,我们公司在电竞层面有着多年的持续投入。

首先,我们先来讲讲英特尔大师挑战赛。英特尔大师挑战赛是由英特尔中国区市场部,专门为中国的非职业玩家打造的一项赛事。这项赛事已经进行了五届,每年一开始的时候有校园挑战赛、网吧挑战赛,然后到区域总决赛,再到全国总决赛,每年都有上万支队伍参加这个比赛。据我了解,今年上半年我们刚刚进行了两站,上海站在 ChinaJoy 也会进行,已经有七、八千支队伍参加到我们的比赛当中,这是我们针对本地的非职业玩家打造的比赛。
英特尔极限大师赛,是英特尔在全球针对最顶级的职业玩家打造的赛事,这项赛事已经进行了 15 届,今年中国区分站赛 12 月份会在上海进行,这一次我们第一次和 B 站会有深入的结合,来把这项比赛良好的宣传给中国的游戏玩家。
《英雄联盟》全球总决赛,在过去几年我们也在一直在赞助,《英雄联盟》是 MOBA 游戏中排名第一的游戏,实际上我们有非常深入的合作。我们在过去的数年里,我们一直都在赞助。
VR 电竞国际大赛,这是我们过去几年跟我们一个非常好的合作伙伴——当红齐天,一起在推进的电竞比赛。因为在我们的体验区当中就有 VR 电竞体验区,也希望我们的媒体朋友、意见领袖可以到那里做深入的体验。那么,为什么我们要赞助 VR 电竞国际大赛呢?其实核心有两个方面的原因。英特尔公司是科技领先,技术领导性的公司,所以我们非常在意如何能够引领科技运用体验的未来发展趋势。
一方面,从电竞本身未来的发展方向来说,其实 VR 电竞具有非常高沉浸式、高互动式的体验,和传统电竞相比,传统电竞主要是考验手眼协调能力、手指的速度,但是 VR 电竞可以完全沉浸在里面,可以全身心的去运动,我们看到之后,我们觉得从电竞角度来说,这是其中的一个发展趋势。
另一方面,是整个 IT 产业,5G 是一个非常大的趋势,而 5G 在真正商用过程当中,尤其是针对消费端来说,现在最需要杀手级的应用,大家普遍认为的 VR、XR 这些方面,需要大数据量的传输,需要非常低的时延,要实现非常沉浸式的体验,有非常多的即时互动,这些都是 5G 可以带来的优势。这也是为什么我们在和我们的合作伙伴共同推动 VR 电竞的原因。VR 电竞,也采用了英特尔公司的至强处理器、酷睿 i9 处理器的边缘计算解决方案,所以 VR 电竞也是我们在推动的行业未来发展方向之一。
2017 年,英特尔公司正式成为奥运会全球合作伙伴,2018 年平昌奥运会我们就举办了英特尔极限大师赛。正在进行的东京奥运会开幕式之前,我们进行了英特尔世界公开赛。实际上英特尔世界公开赛就是英特尔公司和国际奥委会一起,为电竞入奥所做的准备。
目前,我们也正在和国际奥委会紧锣密鼓的讨论,如何把中国消费者更喜欢的,更主流的游戏带入到北京冬奥会的英特尔世界公开赛当中。希望很快我们会有更多好消息跟大家分享,把电竞带入到奥运会当中,变成奥运的正式比赛,这也是我们不断努力推进的方向。
经过之前的这些分享,大家可以看到英特尔公司无论是在产品技术方面,在应用软件方面,在生态方面,我们都对电竞产业有非常多的持续投入,那么今天,我的分享就给大家介绍到这里,我们把更多的深入的包括英特尔公司在硬件、软件方面有哪些优势,交给其他两位进行更加深入的分享。

LiLy:大家都知道英特尔是高科技公司,英特尔每年研发投入是上百亿美金的,在技术、研发、制造方面有非常多的投入。我们先看三段视频,让大家感受一下上周总部 Intel Accelerated 活动上的重要内容。
鞠胜利:非常高兴有机会向大家讲解制造工艺方面的技术。实际上在今年 3 月份,帕特·基辛格(Pat Gelsinger)在讲公司规划的时候提出,我们将在三个重要的领域重点进行研发投入。
- 第一: XPU,也就是我们原来以CPU为核心的研发主体开始往CPU+GPU+FPGA+ASIC的模型去转换。
- 第二:我们会成为一家平台公司,会更加关注平台化。
- 第三:我们要在制造工艺和工厂方面升级为 IDM2.0。
以往英特尔在介绍新的制造工艺时会紧跟产品讲解,比如以前的产品用到 45纳米、32 纳米或者是 14 纳米的技术,我们就会在介绍处理器基础上介绍制程。但是刚刚我提到,未来我们会关注三个领域,尤其是推行 IDM2.0 之后,我们会把制造工艺作为一个单独的环节来介绍。
刚刚的三段视频体现了我们未来方向的变化,而这些变化会关系到今天以及未来几年英特尔整个制造工艺的走向,以及我们新的商业模式。

在前几天的发布中,首先我们回顾了英特尔以往在制造工艺层级的技术创新。比如,在 90 纳米的时候,我们采用了应变晶体管,在 ARM 的时候有更佳的表现,在 45 纳米的时候,我们采用了 Hi-K 金属链路,提供了更好的防漏电能力,可以做到更高的晶体管集成度,以及更好的每瓦性能表现。
到 22 纳米的时候,我们采用了 FinFET 的制造工艺,造型类似于鱼鳍,可以提高晶体管的传输效率。我们在去年 Tiger Lake发布的时候,同时也介绍了新的 10 纳米 SuperFin 制造工艺,对 FinFET 做了进一步的性能提升和优化。
这个地方我们可以看到,从过往,英特尔在每一个重大的芯片制造节点上,都会有突破性、业界先进的制造手段和技术去推进整个的处理器以及晶体管制造业的发展。

在前两天的发布上,我们做了一个非常重大的调整——对今天以及未来的制造节点采用全新命名法则,而从这个命名法则我们可以看到,我们不再依据以往按照栅极纳米技术来做命名。
我们在去年发布了 10 纳米的 SuperFin 制造工艺,未来还会延用这样的命名法则,在今年年底我们马上会采用 Enhanced SuperFin 来进行命名,同时,我们也将采用新的命名模型,将它命名为 Intel 7。从这里我们可以看到指标、制造工艺节点的变化,相比现在采用的 10 纳米的 SuperFin,每瓦性能上有 10%-15% 的性能提升。
同时我们也对 FinFET 做了进一步优化,而且我们看到今天整个笔记本都是 Tiger Lake 的产品家族,无论是轻薄的 UP3、超轻薄的 UP4,以及面向高性能笔记本的 H45、H35,全都是采用10 纳米 SuperFin 工艺,已经成为笔记本市场大规模生产的一个制造工艺了。随着我们接下来进入的 Alder Lake 时代,Intel 7也会很快进入到大规模量产的阶段。
接下来我们会进入到 Intel 4,这是我们以往定义的英特尔 7 纳米的节点,相比 Intel 4,Intel 7 的每瓦性能会有 20% 的提升,同时我们将全面采用新的 EUV 光刻技术。
目前我们已经开始着手研发下一代 PC 处理器 Moteor Lake,在今年第二季度已经进入到了 Tape in 阶段了。目前来看,整个Intel 4 现在的研发节奏是不错的。
相应的,我们在服务器端的 Granite Rapids,它的计算模组采用也是Intel 4这样新的制造工艺。
紧随着Intel 4我们会进入到Intel 3,这个会基于Intel 4做更多的有关Power和效能方面的优化。Intel 3相比Intel 4有18%的每瓦性能提升,同时我们对它的相关的高性能单元也会做进一步优化,会做一些加强。同时我们也会进一步降低孔径电阻率,也会去优化EUV工艺。目前来看,它会在2023年下半年进入到生产状态。
再接下来会有一个重要的变化节点,将它命名为 Intel 20A,这个制造工艺预计在 2024 年上半年采用。刚刚有一段视频着重介绍了 RibbonFET 以及 PowerVia,这两个技术都会在 Intel 20A 上进入到实际应用的状态。

刚刚大家看了视频,视频当中已经非常详细的讲解了 PowerVia和 RibbonFET 这两个制造工艺所带来的优势。PowerVia 一个最大的优势就是把信号部分和电源部分做了分离,不再混合在一起。这样最大好处是降低了电源部分对信号的干扰,可以更加有效的提升信号的传输,提升性能指标的整体条线。RibbonFET 在当前 SuperFin 的工艺下,由纵置模式改成了横置模式,可以在更小的制造单元中提供更加有效的传输效率。同时我们可以把“鱼鳍”做得更宽,带来更好的效能。

另外两个技术和封装技术相关。实际上我们在几年前就开始在用EMBI,这是 2.5D 的封装技术,可以完美地将两个不同的Die,不同厂生产的 Die 进行封装。去年,我们在笔记本的 Lakefiled处理器上实现了 Foveros 3D 封装。再接下来,我们会在 2.5DEMBI 上做进一步延展,在进行优化之后,还会做到 Foveros Omni。它可以提供更多模型 Die 的封装。
Foveros 下一步的延展就是 Foveros Diret,我们会提供比Foveros 更好的连接性,提高性能。
总的来说,通过讲解这一次关于制造工艺的技术讲解以及未来的命名法则,大家可以看到英特尔从今天到 2024 年几个重要节点和未来技术的走向,以及我们采用的一些突破性的技术。
同时,在前几天的发布当中,我们也谈到了有关 IDM2.0 业务上面的一些新的变化。也就是说我们会变得更加开放,我们整个制造工厂会为第三方提供生产制造服务。如果说大家留意到相关的报道就会知道,我们正在和亚马逊沟通洽谈,希望为亚马逊提供封装技术以及制造封装产品。同时我们也在和高通商谈,双方未来将基于 Intel 20A 工艺节点为高通制造芯片。从技术突破到商业模式变化,都是英特尔未来在整个 IDM2.0 上新的变化。
卢卷彬:大家好,我是英特尔游戏合作技术经理卢卷彬,很荣幸有这个机会和大家分享英特尔在游戏方面的优化。
我们是服务客户的团队,需要时常跟游戏开发者一起讨论很多技术问题,而现在的疫情对我们的团队影响也是非常大的。
作为一个全球团队,我们在欧洲、美国、中国、日本、韩国等所有在游戏开发上非常有实力的国家和地区都有团队在负责,我们会尽可能接触所有的游戏开发者,为他们提供技术优化的服务。
我们去帮助游戏开发者是搞定性能问题,当然游戏好不好玩,我们能提供的帮助不多,但是我们希望能够在性能优化上成为客户的依靠。

游戏性能很重要,而且其中也发生了很多“事故”。我们非常期待的很多游戏 IP 一经推出就发生了各种各样的性能、兼容性问题,随后口碑向下,整个项目就失败了。如果游戏项目非常受欢迎,即便有性能问题,但玩家可以为了玩这款游戏自行升升级 CPU、GPU。
前两年的《PUBG》非常火爆,众多玩家为了玩这款游戏去升级CPU、GPU。热度平稳后,《PUBG》主动找到我们,需要我们帮忙做很多优化的工作,比如在 CPU 以及中低端的显卡上面优化游戏体验。
游戏性能当然分硬件和软件,硬件方面主要是 CPU 和 GPU。从 CPU 方面来说,英特尔一直在不断演进 CPU 架构。我们会去收集市场上几十上百款游戏,详细去分析这些游戏在我的 CPU流水线当中的表现是什么样子的,瓶颈在什么地方?是在前端解码的时候,还是在计算系单元执行的时候,还是在存储系统的时候,还是在分支预测的时候有问题?我们会分析上百个工作负载在最新架构处理器上的表现。如果我们发现问题非常突出,那我们在下一代 CPU 架构设计上就会改进这一部分。
比如说最近一两年我们通过分析发现,当前游戏类别最大的瓶颈在存储系统上,这个存储系统包括 L1,L2,L3 cache,以及系统内存。当我们去改进这个游戏性能的时候,需要考虑如何设计下一代的架构,在CPU的面积、功耗、制程各种限制条件下提供一个最优解。
可能大家发现在 Tiger Lake-H 上面,我们就提升了存储性能,修改了 L2 和 L3,所以它的性能更加出色。未来我们也会持续根据市场上流行的工作负载,不断改进 CPU 架构,让它能够给玩家提供最好的游戏性能。因为游戏是 PC 产品最看重的软件类别之一,游戏体积会越来越大,游戏对 CPU 的要求会越来越高,它是我们最关注的,相信未来在游戏方面我们会持续加强,我们团队也会持续对游戏开发者提供帮助。
除了硬件本身之外,其实软件的优化再怎么强调都不过分,它也是非常重要的。英特尔其实在X86架构上耕耘了几十年,服务了几乎所有的基于 X86 的软件产品,游戏也是非常重要的一块。几十年来,英特尔投入了很多资源来开发性能分析工具,来培养性能分析、性能优化的工程师团队,让他们帮助行业当中的开发者能够充分和硬件结合起来,提供最好的性能和游戏体验。

我们可以畅想一下,其实在游戏领域还有很多性能问题是需要我们和所有的开发者一起来解决的。《Warhammer》是一个对战游戏,一个游戏场景中可以有上千个不同的单元同时出现,每一个单元都有自己的 AI,都有自己的动画,每一个都有互相之间的碰撞。

还有前两年 Unreal 宣布的 Chaos 物理破坏引擎,整个游戏中的东西我们都可以进行破坏,破坏出来的粒子和石块之间还可以互相碰撞。现在这样复杂系统的效果,其实只有大的公司才可以做。我们希望有一天所有这些东西,即便是小的游戏工作室也可以唾手可得,到了这一天,这是我们团队希望在这方面尽的一点努力。
今天我跟大家分享一下为什么游戏性能很复杂,英特尔可以提供什么帮助,以及简单的游戏优化的方法。

这是一个最简单的游戏架构,可以看到最下面是驱动和硬件,上面就有 Graphics Runtime,包括 DirectX、OpenGL 或者是很多其他的中间件。再上一层就是引擎,还有最上面的游戏,每一个模块里都有非常多的公司去提供解决方案。
比如说中间的游戏引擎,像Unreal、Cryengine、Frostbite、Unity等,这里面 Unreal 和 Unity 是商业化最成功的引擎,也是大家听得最多的,不管是手游还是 PC 游戏都在用。它们非常复杂,当中都有上百万行的代码,因为都是开放的,可能会有两三百万行的代码,非常复杂。模块也非常多,包括资源管理、内存管理、角色行为、AI、图形渲染、声音、网络、物理、UI、特效、动画、输入等等,非常复杂。
当中的厂商很多、模块很多、代码巨大,游戏类型也是非常大的。比如说一个车枪球,这种游戏的玩法差别是非常大的。但是有一个好处是说,一个系统太复杂之后,就像人类社会一样,我们会把它分工,每个人把自己的那一块做大。
游戏系统也是如此,有专门做引擎的,有专门做声音的,有专门做物理的,有专门做渲染的等。有了这些非常专精的公司把很多内容包装好之后,对很多游戏开发者来说就非常容易了。其实在图中黄线以下,就像 Unreal 的引擎,把很多内容都已经包装好了,即便你只是一个开发者,你也可以使用它的引擎去开发一个还不错的游戏,极大的方便了游戏开发者,也很大程度上推动了游戏行业的发展。
对于一些大的游戏公司来说,即便是用 Unity、Unreal 等引擎仍然需要进行二次开发,这时性能问题就需要你自己非常关注,因为经过二次开发,很多代码已经被改变,要支持这么复杂的游戏系统,性能优化就非常重要了,而这个时候我们就可以提供帮助。
性能优化如何去做呢?其实非常简单,就像你怎么把大象装到冰箱里一样,找到问题,解决问题。
这两个问题都是非常重要的,甚至某种程度上,找到问题更重要。因为解决方案其实现在这个支持在互联网时代大家都是共享的,你遇到任何的问题都不是你独有的问题,在互联网上会有很多人也许就这个问题进行过讨论,你可以从中得到很多的启示。
在这里面,英特尔能够提供什么帮助呢?

我们说工欲善其事,必先利其器。英特尔这几年的经验有相当一部分的资源就是有一整套的性能分析工具。一个负责任的性能分析工具应该是什么样的?应该是自上而下的把程序的问题搞的清清楚楚、明明白白。
英特尔 Vtune 分析工具在行业里面名气还是响当当的,无论还是服务器还是客户端,它可以从系统层面一直到每一个线程,每一个DLL,每一个函数,再到每一行代码,再到汇编都可以给你整的清清楚楚,明明白白的。这也是经过了我们几十年的沉淀,而且它是免费的。
下面是一个非常简单的截屏,当你用 Vtune 跑的时候,它会有一个整体概况,左边我们可以看到,这个程序花了多长时间,对多线程的利用是多少,右边还会去建议你下一步还可以用微架构再跑一次,更详细的针对微架构的分析,或者再跑一次针对内存的分析,可以让你进一步了解。

右边的就是针对微架构的分析,可以看到是前端有问题,还是在解码有问题,还是说内存有问题,L1、L2、L3,包括 DRAM Bound 各自的百分比是多少,都会给你演算出来,这是一个非常整体的概况。
左下角是每个线程的概况,每个线程在每个时间点的活动是怎么样的,线程之间有没有一些同步关系,替代关系,都可以看得很清楚。在每一个时间段,每一个线程当中是哪些函数在运行,甚至是说每一个函数运行,再往下面直到每一行代码都可以给你指出来,每一行代码主要 Bound 的原因是什么,花了多长时间,都可以给你指出来。
这样对开发者来说,就可以对程序有一个非常总体的了解,哪一个线程是瓶颈,哪一个模块是瓶颈,哪一个函数是瓶颈,甚至具体到哪一个代码,真正让你清清楚楚,明明白白,知道在哪里改进会得到最好的优化。

在 GPU 上,我们也有一个很好的工具 GPA。虽然说我们现在还是集成显卡,但是未来你懂的。在过去十来年我们和客户合作过程当中,GPA 工具也是广受客户赞誉的,它会对整个游戏总体的情况,具体到每一个 Pass,每一个 Draw call,每一个Shader,每一个参数都可以通过这个能够发现,你可以方便定位这些问题,然后让开发者知道是什么情况。
这个截屏也是一个整体的概况,从这里面可以看到它有很多的性能指标,包括你有多少个 Draw call,你每一帧的情况都能详尽展示。

另外当你只有一台机器的时候,你可以像右边这样。左边这个情况是说你可以连到局域网当中的任何一台机器上,互不影响的收集这些信息。右边这个是说你也可以直接切换到程序界面上,用一台机器就可以看到这些性能信息,非常的方便。

另外客户还会经常碰到一个问题,我在玩一个游戏的时候突然掉帧,但是我不知道它是在哪掉的,我根本来不及抓取。我们还提供这样的功能,你可以抓一段时间里面的每一帧的 Frame,抓出来之后,它可以把每一帧的时间都显示来,然后你可以点其中最耗时的那一帧然后去播放。它从前面一直播放到这一帧就会停止,然后再把你这一帧的数据打开。比如说播放到这里就停止了,这就是最耗时的那一帧,接着把这一帧打开,你可以明显看到你有多少个 Draw call,比如说这一帧上面有多少个 Draw call都可以看到,每一个 Draw call 的时间花费多少都显示的非常清楚明白。

另外它也会对你整个这一帧有一个根据你的 3D Pipeline 来的分析。比如说右边就是在 3D 当中,我渲染一帧要经过哪些步骤之类的。左边对应的我们的 GPA 就会告诉你,你在渲染这一帧的时候,其实是你的 Back-End 这边有最明显的问题。我们和游戏开发者就知道,我们怎么着手去搞定这个问题。

另外是说我可以看到每一个 Draw call 里面我用到了哪些模型,这些模型究竟有多少个顶点我都可以看得很清楚。比如说这块石头用了 8000 多个顶点,这样是不是就合适呢?它耗时多长时间都会显示出来。这段Shader代码是什么样的都会显示出来。

除了工具之外,人也是非常重要的。我们有一些技术工程师在游戏开发的早期就会进去。另外英特尔在发布一些新的平台的时候,我们会在测试版的机器就会给到这些开发者,让他们提前进行适配。我刚刚也说了,我们是一个全球团队,我们本地有一些问题能够解决的我们就解决,不能解决的还可以把这些问题带回给其他的团队来帮助我们解决。国外和其他的大厂做过什么样的优化,有什么好的优化方法,也可以带回来介绍给国内的开发者。
另外我们还有测试服务,一个游戏过来,我会帮你测试你所关注的好几个平台上的性能。很多开发者本身也许拥有的机器是很少的,但是他想进适配或者是覆盖的玩家设备,这个时候就可以帮到他们对大部分的平台做性能分析或者是测试,然后反馈给他们,当你发现一些问题的时候,他才会有目的性的去准备一些平台进行这种优化。

前面谈到的是如何找问题,找问题是非常重要的一步。找到问题之后你如何优化呢?这里有几个办法:
第一, 发现和修正代码。
因为代码的数量非常大,也非常复杂,尤其是一个游戏团队当中有程序开发,也有美工。你现在使用游戏引擎开发,美工的工作量会剧增。这两者之间可能互相之间不会相互考虑,美工考虑的是我把这个东西正确的渲染出来,但是我有没有把一些参数设置好,一些 LOD、遮挡,以及关系到性能的参数,我有没有设计到最好?
第二, 并行优化。
并行优化谈了很久,它包括两个层面,一个是多线程并行,也就是说四个车道跑总是比一个车道跑得快,并行优化可能是优化得到回报最高的。这当中英特尔的 TBB 可以帮助你前后线程池的调度。CPU 的多线程优化,尤其是针对游戏相对 GPU 是非常难的。因为 GPU 就是处理几百万个三角形,几百万个顶点,它是天然的顶点和顶点之间,三角形和三角形之间是没有依赖的,所以天然的我用几百个或者是几千个显卡单元去计算,都可以得到非常线性的性能提升。但是 CPU 里面,其实它有很多逻辑,有很多模块和模块之间的依赖,所以就非常难。
幸运的是英特尔也在和行业当中最重要的合作伙伴合作,帮助游戏开发者解决这些问题。比如说我们和 Unity 合作,做了 ECS和 Job system,现在 Unity 对多核心的支持是非常好的。另外我们还和 Unreal 做了 Unreal Task system,用线程池的方式,把很多的任务可以提交到 Unreal 的任务系统当中,去充分应用多线程。
第二个层面的并行是指令级并行,大家知道 SIMD 指令集,在一条指令里,我可以处理 8 个顶点或者是 8 个核点数。这个到开发者手中去做也是非常难的。因为你要么手工去写一些汇编或者是写一些 Intrinsic,你需要把 C++ 的这些算法改成 Intrinsic 这种指令集还是相对来说比较复杂的。这里面英特尔也在想办法给大家提供一个简单的解决方案,我们称之为 ISPC,这是一个编辑器,它可以把你的 C 和 C++ 代码编译成能够使用上,加速计算的 binary,其实在 Unreal4 和 Unreal 5 当中的 ISPC 也是我们的工程师帮助他们做的。前面大家看到的 Chaos 物理破坏引擎就是使用的英特尔 ISPC 的编译器。其实在 Unity 也有类似于 ISPC 的编译器叫 Burst,这也是属于在大范围应用的。所以你是使用 Unreal 或者是 Unity 的游戏开发者,就可以非常简单的进行一些设置和调用,就可以用上这些性能,这是我们英特尔和行业合作伙伴一起在向前推动的事情。
第三,算法优化。
这是针对具体游戏具体分析,游戏场景,游戏玩法上,哪一部分是非常突出的瓶颈,应该如何优化它,是采用更好的数据算法还是调整我的数据结构,还是说开发者去调整场景布置之类的。这是需要游戏开发者跟我们一起来进行讨论,进行头脑风暴的一种优化方式。
第四,底层架构优化。
英特尔也在针对每一个工作负载去分析,它在我的CPU流水线上的表现。一个游戏开发者把前面的都做好了,还是觉得性能不好,他也有余力、有时间,可以进行一些底层架构的优化,我们英特尔的工程师也会提供建议给他们,让他们去评估一下这个对我CPU代码架构改变有多大,会不会影响我的可维护性之类的东西,让他们去斟酌

接下来我分享的是我们在过去两三年里,在国内的一些游戏优化,其中有一些是CPU相关的,有的是集成显卡相关的。可能有一些数字比较夸张,因为本身我们进去的时间是比较早的,那么我们就开始用这些分析工具跟他们一起去斟酌,里面哪些是有问题,是需要去分析的。所以基本上得到这样的结论,开发者对我们英特尔提供的帮助非常赞赏。
游戏开发者就是我们的客户,客户就是我们的上帝,我们会持续跟他们一起合作,不管是对他们未来的产品还是英特尔要发布的新架构的CPU,我们都会持续在这上面进行紧密合作。
以上是我跟大家分享的内容,希望大家能够增长一点点“见识”,谢谢大家!

首先来给大家说一下我们今天聊的“猛兽峡谷”,从过去10年的产品历程来说,我们的这个产品NUC,它的英文全称是Next Unit of Computing,也就是下一代计算单元。它当中包含了英特尔对未来计算场景的种种期待,包括小型化、模块化、定制化等等。坦白来讲,在整个产品线过去10年的历程当中,出现了非常多有意思的、在整个PC历史上都非常有创举的产品。

首先是我们最早做的0.5L-0.6L的超小型迷你主机,是一个10cm×10cm的方案。这条产品线是现在市面上销售数量最大,应用范围最广的一款产品。它凭借小型的体积、较高的性能,以及经过英特尔调教的稳定性,在市面各种场景下赢得了用户的喜爱。它不仅针对常见的家庭客户,搭一些应用场景,帮助AI的边缘计算,还在O2O的新零售场景中都有所使用。另外还有一个我觉得非常奇特的产品线,就是大概在2017年引入的1.3L的机箱方案,这个机箱方案的第一代产品叫“骷髅峡谷”,它秉持着在最小体积内承载最高的CPU+GPU的美好目标而不断创新。
第二代产品我看到后是非常惊讶的,当时产品拿到市面上非常惊艳。在那个时间点来看,它是性能和完美度非常高的产品,这是我们在这个产品线做的第一次尝试性的突破。
到了2021年的时候,这条产品线增加了一个最新的,至今也非常受欢迎的产品“幻影峡谷”,搭载了英特尔 11 代酷睿 i7-1165G7+RTX 2060 显卡。大家可以想象,在过去这大半年时间里,在如今整个缺显卡的环境下,这款产品有大量的应用需求爆发出来了,我们也得到了客户一致的好评和口碑。如果说大家有机会可以去现场看,也可以看到我们在做的一些VR游戏,也是用这款产品去做的一些定制背包的方案。
到了未来,这条产品线有一款更有意思的产品线叫“奎蛇峡谷”,预计在今年年底发布。我特别期待这个产品在面市之后可以和大家有充分的交流。因为我相信现在市场上的消费者对产品的认知、对参数的认知、对应用场景的认知,更关心的是你能给我什么,我能享受到什么,我对这个产品的期待是非常高的。
在2020年,是英特尔系统级业务部门产品爆发的元年,从路线图上可以看到在2020年,我们增加了很多家庭系列的产品。第一个是5L系列的小型主机以及小型工作站。第二个是我们定制的一个类似模块化的方案,它通过一个专属的接口,或者像Element 做一种 PCIe 的标准接口,希望给 PC 带来模块化的打造。因为我本人是比较喜欢玩二次元的东西,就像之前我们最早玩积木,玩高达,玩模型。
最近几年我们看到,乐高这种通用模块化、可插拔、可复用的创意型的产品会越来越受欢迎,这也是在设计上比较有意思的点,未来我们会在模块化的方向上去发展。也许未来,我们想再组装这样一个迷你主机,也许只需要一个机箱,一个主板,上面通过PCIe或者其他接口很简单就可以插起来,极大降低了各位玩家、发烧友做DIY产品的难度,也可以更好地发挥自己的想象,进行产品迭代。这是我们去年发布的Element计算模块产品。
我们在推动 Evo 整个系列产品的落地和推广过程当中,英特尔也出了自己的白牌笔记本,包括有做 Evo 认证的,有做Gaming PC的。这是我们过去和未来希望给到大家的更多的产品展示。
我一直认为我们这条产品线在英特尔内部是属于一条不断尝试,不断突破一些现有产品形态、合作界限的产品线。必须要强调一下,中国的生态环境是我们非常重要的合作伙伴。比如我刚刚讲到的1.3L的机箱,之前我们和美国这边探讨很久,是因为将中国市场的一些数据与我们的需求对比之后发现,这个东西确实是很好的。未来这些基于计算模块的产品,也更离不开中国合作伙伴,整个产业链的系统支持,以及中国创意伙伴给我们提供的各种灵感。以上是我们产品线主要的介绍情况。
回到产品本身,我们对产品的定位,我自身理解它最大的特点是“小钢炮”。

“小”是它只有8L的体积,在整个10L以下体积的产品来看,它现有能搭载的设备和接口已经是非常完善的。“钢炮”这个点我觉得也不需要太多的赘述,因为它有i7-11700B和i9-11900KB的处理器。其实我刚开始拿到这个产品时也觉得很奇怪,我们知道以前这种命名,比如说11900K或者是11700是台式机的命名,我们这个产品实际上是基于H45平台去做的一个产品,为什么它的名字是这样的呢?我们得到的答复是这个B是指BGA封装,我搜索了一下历史上的情况,比如说苹果当年用过8700B,它的定位还是放在台式机市场的。所以我自己有一个小小的判断,未来这条产品线是要做一个高性能、高性能,同时又支持桌面完美能力展现的产品线。它把自己命名为11700B和11900KB,是既希望达到桌面级的性能,又同时能利用到我们现在移动架构的能效方面的特性。所以我们在这个产品上,看到了未来希望去尝试和探索的方向。
除此之外,就像跑车一样,我们会看重它的马力、百米加速等,这是它最核心的、最硬核的、玩家最关心的数据。但是实际上很多人在选购的过程中,除了这些之外,他还会看外型、内饰包括一系列的周边配套,这些会严重影响到对整个产品的感受和喜好。这是我们整个这条最新的“猛兽峡谷”产品上比较有意思的一点,就是搭配很均衡。我们说一个产品除了设计之外,除了性能有爆点之外,还很均衡,设计师真正地站在游戏玩家的角度来思考,“我到底在什么环境下使用这台产品”。我看到这台设备的特点有如下:

第一,它有丰富的接口,包括雷电4、UBS3、HDMI2.0,这些可以保证我们在显示输出、外接设备上,可以达到最高速的连接以及最多的接口,以满足我们的需求。
第二,在整个网络环境上来看。它内置了英特尔AX210无线网卡,这个网络卡是我们最新的Wi-Fi 6e的方案,在整个网络连接速度上,包括对抗网络延迟波动方面都有自己独特的特点。同时还配备了2.5Gb的网线,内制了蓝牙5.0,来保证我们跟各种设备连接,比如说和蓝牙连接的手写板,一些让创作者使用的设备,都有非常完美的连接试验。
第三,拓展灵活。我们可以看到目前可以加到64GB的内存,我们有4个SSG的插口位置,来支持我们进行SSG拓展,同时也支持read 0和read 1,来保证我们在创作同时数据空间足够使用,并且数据安全可以得到保障。另外它内置650W电源,现在产品的电源以它的供电能力,在现在完美跑完我们所有的主机性能同时,可以最高支持3090的显卡,当然可能是比较挑品质的,因为这个产品到目前我们测试过的所有产品,只能用双槽宽的涡轮的方案,为什么?第一是为了考虑整体功耗的问题,第二是为了考虑整体散热的情况。们发现这个产品在这个体系内,它的性能和能效达到了一个相对完美的平衡。

最后说一下,我个人非常喜欢的是这一点,它的定制工作非常简单,前期有一些KOL已经在做这样的工作了,大概只需要花费几十块钱,或者是十几块钱就可以了。前面设计自己喜欢的Logo,这是最简单的定制,其实它是一个模块化的产品,里面的CPU、网卡以及其他的主要的东西都是插在PCIe接板上的,它是通过PCIeX16的接口来跟整个设备连接驱动起来的。基于算力板的方案,我们和中国很多生态合作伙伴在做一些更炫酷,更个性化的方案。可能我们展台有基于上一台产品有一些外形定制的,比如说我们给CF定制了子弹箱的方案,有专门给BBworld定制的带他们自己图形的方案。在这个过程当中,除了外观的一些变化,我们还会基于英特尔产品本身的特性得到一些优化和释放。
因为目前这个产品由于自身的功耗和体积的设计,一共设计的是65W,但是我们可以把它的功耗拉到最高109W。但这个时候我们就需要单独为它进行散热结构的设计。包括显卡大家也知道,国内消费者更喜欢是比较炫酷的三槽宽的,加了各种炫彩灯带和各种三风扇方案。所以我们也会针对中国市场和合作伙伴打造未来用户可全方位定制机器RGB灯光效果,还能更换RGB前面板灯光徽标。把CPU性能得到最大解放,同时支持市面上主流设备显卡的方案,来推向市场。同时也会有更多IP化的,个性化的定制方案推到市场上。这是我们希望能在中国这个市场上给大家去做到的一些东西。因为我们会发现,之前做的这个还是有很多人来跟我们聊说有没有未来合作的机会,或者是想做一些个性化的东西。因为确实在今天来看,一台PC的成本和价格已经不算很高,大家可以很轻松地承受。包括今天我们也请到了wAwa,我们也开玩笑说他是客串科技区的 Up 主,其实我们特别希望听到的是真正作为一个使用者,一个游戏玩家,一个主播拿到这样的产品是什么样的感受。就像他说的,一平房价要多少钱,我们希望这个产品可以在我们能控制的最好的成本之内,给大家带来更加极致的体验。
以上是我大概的产品介绍,后面关于应用场景的部分,我就不再赘述了,我是一个实用主义者,我特别希望有机会和大家进行合作,或者我们提供一些样品给大家进行测试,或者是到我们的体验区去体验各种有意思的方案。
这种最直观的给到消费者的感受是我们特别希望看到的。今天的网络上大家越来越在反权威、反广告,但是我相信一些中肯、中立的言论还是大家愿意接受的,所以我希望未来和大家有更多合作的机会,听到一些非常贴近市场端的需求。
我们也接受各种批评和意见,也希望一起在大家的推动下,做出更好的产品,以上是我的内容,谢谢大家。


【Q&A 环节】
Q1:“猛兽峡谷”和“幽灵峡谷”都是用Element计算模块,“猛兽峡谷”的计算模块能插到上一代产品上去用吗?
徐立飞:技术参数上可行,但是因为主板设计间距稍微有所调整,所以我不建议插到上一代产品上使用。
Q2: 英特尔游戏编程是不是要支持处理器并行运算的规则,难度比较大?现在这边支持并行计算的线程数可以
做到多少条?如果说大家购买处理器,你建议大家购买核心数、线程数多少的产品?
卢卷彬:只有少数用来做Benchmark的游戏,可能能用上十几个核,但是对99%的游戏,能够利用上6核心或者是8核心也许就是最好的选择了。
我不知道有没有听过一个“Lambda定律”,就是说一个软件在多核心上所能得到的性能提升是跟你必须要串行的部分相关的。虽然说在游戏上,我们在尽力的跟Unreal、Unity以及国内的很多自研游戏引擎在做多线程优化。但是我在去跟微软打交道的时候,那个渲染线程基本上还是会成为一个瓶颈。
所以有两个线程是非常重要的,在绝大多数的游戏当中,它都比你的那些工作线程工作任务要多,每一帧都要比你的工作线程跑得更长一些,一个是渲染线程,一个是主线程。我们也不知道哪一天主线程和渲染线程也可以完全完美的多线程到五六个核心或者是七八个核心,但是现在我们还没有看到。这也是为什么我们接下来会先发一些大小核架构的处理器,这也是基于工作负载对大核心的需求数量的预估。我们把功耗集中在几个比较大的核心上,让几个大核心变得更大。小核心可以加速我的网络线程、声音线程,这些后台没有那么practical的线程来跑。
所以我觉得在当前来讲,6 核心、8 核心对主要的游戏来说就已经够了。
Q3:现在NUC产品越做性越强,体积也越来越大,现在的产品已经相当于一个小机箱了。本来NUC应该是小巧、灵活,性能是主流的就行。现在NUC越做越强,越做越大,感觉NUC失去了它本来的意义了,NUC下一步的方向是怎么样的?就是沿着更大更强的路走,还是说一方面是更大更强,另一方面小的也在做,是两个方向,未来的方向是怎么样的?
徐立飞:其实我刚刚讲到了,我们NUC最经典的一条产品线是10×10的小盒方案。未来这条产品线还会持续做下去,这是我们认为在市场上做到一个非常极致,而且是非常具有代表性的产品,所以这条产品线会持续不断去推进。随着CPU的制程工艺越来越强,我们的显卡集显能力也越来越强。所以在同样体积内的产品性能提升会比以往提升幅度更大。所以它会变成我们非常亮眼的一个产品,所以这条产品线是我们一直不断坚持去做的产品。
另外你也提到会不会去做一些大一点的方案,我的回答是肯定是会做的。比如说我们看到除了传统的10×10的迷你的方案之外,我们在去年增加了Element H,就是5L到现在8L的方案,也会有一些笔记本的方案。我们希望做出一些东西去看一看这个市场到底是什么样的反应。因为总会有人想去试着做一些不一样的东西,看看这个市场到底有没有机会。可能很多时候我们的合作伙伴会承担一些风险和考量,这些事情不如我们英特尔帮助大家去做。
我们也特别希望在未来,不光是NUC,包括有很多合作伙伴的迷你产品在市场上得到大家的认可,比如说未来高性能的东西,这种超小型的盒子的方案,无论是在家庭还是办公等场景都非常好,那我觉得对整个PC形态的推动就是非常大的进步。这也符合英特尔对自身的技术领导者的定位。所以我的回答是,我们还会持续做这个产品。
Q4:我刚刚在展台上看到了NUC笔记本方案,能不能解释一下NUC笔记本方案有什么特殊的地方?
徐立飞:NUC笔记本方案有几个特点:第一,它会出准系统的方案,就是没有内存、硬盘的。其实是为了很多在中国面向海外市场做定制的。因为在中国的生态合作伙伴当中,有很多有这样的需求,包括外观的简易的定制,这是一个探索方向。
第二,在推动整个Evo市场来说,我们也希望有一款英特尔的产品来帮助大家去做一些事情。
第三,在整个游戏玩家市场上,我们之前很多Gaming的方案是非常炫酷的,之前英特尔在Creator上能够做出一些有商务范、比较酷又性能很好的产品。其实这几个方向也是我们不断去尝试的。它承担的责任就是我们既有高性能、超轻薄的Evo,也会有一些比较商务范的高性能游戏本、设计本。我们希望在这些领域帮他们去摸索看看,有没有更好的,大家觉得好还是不好的这种测试性的产品。
所以就像我们说的系统高配定制的,一个是Evo的,一个是Gaming的,大概是这三个小的方向正在做尝试。
Q5:刚刚卢卷彬提到了CPU对游戏的优化,现在电子竞技非常关心整体的系统响应问题,就是说从鼠标键盘的输入到最终屏幕的呈现中间是有一个过程的,是否有什么方案是对整个响应做一个压缩?
卢卷彬:是的,从键鼠到玩家能够从屏幕上看到,这个延迟时间当然是越短越好,尤其是对一些电竞选手来说,他非常敏感。其实这不是英特尔一家的事情,其实是包括操作系统、外设厂商、显卡厂商和游戏厂商需要一起做的事情。
除了从硬件上,从外设上减少输入的延迟之外,还需要考虑到编程和引擎角度为了得到最好的游戏帧率,CPU和GPU是在并行的。CPU会不停准备任务,显卡驱动或者操作系统那边会缓冲一下。这就遇到一个问题,就是说我在这个时间点上我得到键鼠输入,然后我去准备东西,然后我把它传给GPU,GPU其实是缓冲了两三帧的。现在有一个可以减少的方式是说,我在这个地方输入之后,我通过损失一定的帧率,CPU一准备完,GPU马上就去算,GP算完了再返回给CPU,CPU再去准备。所以每一个键鼠的输入的计算量,都是我等着你来,来了我马上就算。这种情况下会损失一定的帧率,但是你的操作延迟就会得到优化。
从显卡驱动方面,也有很多可以优化的东西。从内部来说,其实我们有类似的技术在研究,当我们的高性能的显卡出来之后,我们会在里面内置一些从显卡角度去减少这些延迟的方式。
Q6:我也有一个游戏优化相关的问题,英特尔这两年对越来越多AI和5G对游戏进行的优化,之前我看到很多案例,我们把AI应用到内容开发和创意方面,那么AI对游戏的优化,或者说在游戏开发者开发过程当中有什么应用?随着英特尔也在尝试将5G带到PC,未来云游戏可能也是一个方向,那么对游戏的优化是不是也会有一些不一样。
卢卷彬:这是两个问题,一个是关于AI在游戏当中的应用。其实现在很多行业有很多视频也好,或者是一些PUC也好,它有很多在游戏里面可以去加速游戏制作,然后通过一些专用的软件去跟踪,来产生很精确的人物在游戏当中的动作,AI其实在这些方面都会有。
我们在客户端的CPU,集成了AI指令集,当前在media这一块有很多的应用,在游戏方面,我们也在积极和行业的合作伙伴进行合作。比如说网易这边有伏羲实验室,它是专门在研究这些技术在游戏当中的应用,包括游戏在生产过程当中和游戏在玩的过程当中。比如说我可以通过普通笔记本的2D摄像头,可以去Character一个玩家的脸,然后在游戏当中,你的角色,你的脸和嘴唇各种动画都可以根据你的这个来。这个有点像苹果手机的一个东西,但是它用的是2D摄像头,而且它的精度可以做到非常好。
另外还有像一些For found的东西,比如说游戏里面的角色我可以随着MP3去翩翩起舞,你什么风格的MP3我游戏当中的角色就会对应跳什么风格的舞蹈。这种事情我们正在探索,它看上去很新颖,但是你要把它真正应用到游戏里面可能还是需要一段时间的,它不是一个必备的功能,也不是那么革命性,但是我觉得这个东西在慢慢向前走。可能等着哪一天,也许有一个非常牛的出来,它就爆发了。英特尔在客户端CPU上的AI计算领域在向前演进,现在有VNNI,未来可能会有专用的一些AI工具。
关于你说的第二个问题,5G放到PC上,未来对游戏会不会有一些改变?这个确实很重要。英特尔在云游戏方面其实有非常多的技术研究,包括怎么去降低延迟,怎么去节省带宽,怎么针对每一个画面,我去分析你的画面,我只对里面最重要的那部分用高码率,不重要的部分用低码率,怎么保持稳定性,怎么用AI方式预测你的网络带宽的变化,提前做一些准备等等,这些方面的技术准备的确是很不错的。我相信未来爆发的哪一天,我们的解决方案会更有一些优势。
Q7:其实我们看到“猛兽峡谷”8L的容量其实可以直接上桌面了。这一次两个H65的处理器在一些调教比较激进的游戏本里也可以直接放了。我想了解一下两个H65披露的型号,未来是只会放到NUC产品上,还是说也会放到游戏本上?
徐立飞:好问题,说实话,我现在只知道我们会用这个型号,但是未来会不会把这个产品放到其他的合作伙伴上来做,目前我不太确定,这可能是CCG,也就是整个零售产品业务部去决策的,我们是他们下面做的类似于探索性的产品方案,所以我们当时想去试一试。如果说大家看完觉得好像和终端级差异不是很大,那可能它就不会用,所以这个其实最终决策是取决于CCG看到的一些情况。
二是这个产品如果说市场认可度真的很好,不排除会成为一条新的非常好的产品线。但是很抱歉,这些都是我的个人推测无法给你一个准确的答复。
Q8:我想问一下鞠胜利先生,关于英特尔的制程工艺提升,您在讲到有关是Intel 3还是Intel 7的时候,我听到的都是每瓦性能提升了多少。英特尔其实还是使用的10纳米的支撑工艺,我不太确定Intel 7和SuperFin晶体管密度是否有提提升?每瓦性能的提升是指它的功耗曲线?Intel 3您说的也是每瓦性能提升,您能解释一下每瓦性能提升是指整体的性还是其他的?
鞠胜利:如果说大家有机会看几天Pat和Ann他们当时的发布,以及发布之后面对国外媒体的一些问答的时候,他们详细的解释了我们的命名原则,以及我们为什么会做这样的改变。
我记得他们当时谈到了一个重要的问题。从1997年之后,整个制造业对整个制造工艺节点以及纳米制程变得不是那么标准化了,所以基本上这样我们会看到,英特尔因为要进入到IDM2.0,我们需要做独立的代工以及作为一个制造商,我们和我们的合作伙伴以及产业的客户交流,我们认为采用全新的命名法则更有利于IDM2.0的实施,以及和产业、合作伙伴进行交流。
如果大家留意的话,通行的一代制造工艺的改良,达到每瓦性能两位数的提升,基本上就是一个大的节点的命名法则。这个你可以看到,我们第一代的Ice Lake到Tiger Lake,我们10纳米的SuperFin并没有采用传统的我们在14纳米用的14nm+,在第二代Tiger Lake10纳米,我们用的是10纳米SuperFin的命名法则,实际上就是基于这个道理。
在今年,我们整个的沟通基本上是按照这样一个原则,也就是说我们的工艺制造的每瓦性能提升在两位数提升就是一个大节点,我们按照这个节点的节奏去做命名。
另外一点,大家如果说看到当时发布以及问答的话,我们的Intel 7相当于业界通行的7纳米的性能表现和水准。
Q9:我想问一下NUC产品的价格,我感觉NUC这个产品只要带独显的,在中国卖的都非常贵,这一点被网友吐槽很多,这次的价格是怎么样的?
徐立飞:我非常认可这一点,其实我们之前也看到了,在产品性价比上,很多客户觉得产品真的很好,但是有点贵。所以我们目前正在商讨的价格策略是说,我们希望他们搭配出来的方案和我们价格基本上是保持在差不多的水平,这是我们希望让这个产品能真正的去到市场上,大家更多认可接受的方向,这是我们在做的一个方向。
但是确实因为独立显卡是要单独插的,我很难判断一两个月之后显卡的售价是什么样的?但是我能保证我们在出产品价格方案时,会跟现在市面上方案的成本是几乎接近或者是基本上差不多的。这是对于这个产品的判断。
过去的我们看到一些带显卡的方案,确实是会有这样的状况。但是正因为如此,其实这个事情我自己认为,这个策略是有待我们去商榷的,我们也希望未来在这个策略上可以调整出来。也请大家理解,其实我们有显卡产品严格意义来说是有两代,一个是“冥王峡谷”,一个是去年年底推出的“幻影峡谷”。因为“幻影峡谷”在去年到今年这个时间节点,确实是受供应商,特别是某些关键部件供应价格和供应量的影响,导致我们也很痛苦。
其实之前大家如果有关注过,我们真的尝试做过一波非常激进的价格。因为我们觉得那是市场上消费者愿意买的价格,也是一个我们真正希望它能快速销售的价格。但是就如我刚刚所说,有一些关键部件的供应,影响到了整体成本,这个也跟大家说一声抱歉。我们始终希望给大家提供更好、更具性价比的方案。