ARM Mali-G77 GPU - 完整的INS和OUTS

ARM Mali-G77标志着移动GPU的架构和主要性能优势的变化。这是您需要知道的一切。

经过

•

2019年5月27日

除了新的Cortex-A77 CPU核心，ARM推出了一个发布了下一代智能手机SoC的下一代GPU。马里-G77，不要与新的混淆Mali-D77显示处理器，标志着ARM的BIFROST架构的离开，并转移到Valhall。

我们将在一瞬间进入新架构的细节。首先，我们将在绩效收益方面进入用户期望的内容。

Mali-G77性能概述

与当今的Mali-G76型号相比，ARM拥有Next-Gen Mali-G77器件的40％的图形性能提升。该号码正在考虑过程和架构改进。Mali-G77可从7到16个着色器核心配置，每个核心几乎与G76核心完全相同。这意味着高端智能手机可能会在今天的某处与他们所做的类似GPU核心计数。手上，这让我们对现有芯片组进行了一些投机性能评估。

看着受欢迎的曼哈顿GFXBench基准，40％的性能提升开辟了对当前一代硬件的相当大的铅。Qualcomm的下一代adreno芯片需要自己的重大绩效升级来保持竞争场地面。桌子似乎正在掌握手臂的青睐。

架构明智，游戏性能增加了20％至40％，而机器学习则获得60％的增压

基于这种相当粗暴的球形，一个10核心的Mali-G77（我们经常从华为看到的一组）看起来只是关于这一代的线路移动图形硬件的顶部。通常在三星的Exynos中看到的12个核心配置，为ARM最新的GPU提供了一个大的领导。当然，真实的基准将取决于其他因素，包括流程节点，GPU高速缓冲存储器，LPDDR内存配置以及您正在测试的应用程序类型。所以用余性盐的上述图表。

就单独的新架构而言，ARM表示，Mali-G77对能效和性能密度的平均提高30％。由于INT8 DOT产品支持，机器学习应用还有一个巨大的60％提升。游戏性能期望在20％和40％的升压之间设置，具体取决于图形工作负载的标题和类型。

要了解ARM已经实现了这种性能隆起的方法，让我们深入潜入架构。

遇见Valhall，Bifrost的继任者

Vahall是ARM的第二代标量GPU架构。它是一个16宽的执行引擎，其基本上意味着GPU每个循环的每个周期执行16个指令，每个处理单元每根核心。这是Bifrost的4和8宽。

其他新架构功能包括完全由硬件管理的动态指令调度以及保留与Bifrost的操作等价的全新指令集。其他包括对ARM的AFBC1.3压缩格式的支持，FP16渲染目标，分层渲染和顶点着色器输出。

Mali-G77比G76平行33％。

通过在核心内部检查执行单元来找到理解主要架构更改的键。GPU的这一部分负责数字嘎吱作响。

在执行引擎内

在Bifrost中，每个GPU核心在一些低端Mali-G52设计的情况下包含三个执行引擎或两个。每个引擎包含I-Cache，寄存器文件和翘曲控制单元。在Mali-G72中，每个发动机处理每周期4指令，在去年的Mali-G76中增加到8。跨越这三个核心允许12和24个32位浮点（FP32）融合乘法累积（FMA）指令每周期。

使用Valhall和Mali-G77，每个GPU核心内都有一个执行引擎。如前所述，该发动机容纳经线控制单元，寄存器和ICACHE，现在在两个处理单元上共享。每个处理单元每循环处理16个翘曲指令，总吞吐量为32 FP32 FMA指令的每个核心。在Mali-G76上指导吞吐量是33％的推动。

ARM已经从三个执行单位过渡到每个GPU核心，但现在G77内核中有两个处理单元。

此外，每个处理单元中的每一个包含两个新的数学函数块。新的转换单元（CVT）处理基本整数，逻辑，分支和转换指令。特殊功能单元（SFU）加速整数乘法，划分，平方根，对数和其他复杂整数函数。

标准FMA单元已经看到了几次调整，支持每周期的16个FP32指令，32 FP16或64 INT8点产品说明。这些优化在机器学习应用中产生了60％的性能隆起。

四边形纹理映射器

Mali-G77中的其他关键变化是引入四边形映射器，从前一代中的双纹理映射器。纹理映射器负责将场景中的3D多边形映射到屏幕上看到的2D表示。它负责采样，插值和过滤，以平滑成角度和移动内容，以避免苛刻，低质量的边缘。

低成本的抗混叠仍然存在有助于协助图像质量，但纹理性能的加倍是这里的主要优势。纹理单位现在进程4每个时钟的4个双线性折线从2个时钟，每个时钟的2个三轴纹塞，并处理更快的FP16和FP32过滤。

Quad纹理映射器分为两个路径，为在缓存中击中内容的线程提供更短的管道。处理格式转换和纹理解压缩的错误路径具有更广泛的L2缓存接口。这也有助于机器学习工作负载可能经常需要从内存中拉出新数据。

在马里-G77中将所有东西携带在一起

ARM已经为Mali-G77制作了许多其他调整，以与Valhall架构的主要变化重合。由于单个执行单元设计，控制块被简化，而内部动态调度器实际上允许在每个核心内发出更灵活的指令。在每个核心的吞吐量较高，数据疗法也较短，延迟较低，以前从8次下降到4周期。

新设计也与Vulkan API更好，简化驱动器描述符以降低驱动器开销，以改善“到金属”性能。

总之，Mali-G72和Valhall从Bifrost作出了重要的变化，这承诺为游戏和机器学习应用程序提高了显着性能。重要的是，该设计适合与Bifrost相同的电源和区域预算，确保移动设备能够提供更多的峰值性能，而无需担心热量，功率和硅成本。根据性能预测，Mali-G77应该能够为Qualcomm的下一代adreno提供良好的运行。

B0B体育平台下载

手臂