Android管理bob体育提现bob哪个彩靠谱局的链接可以赚取佣金。学到更多。
ARM Mali-G77 GPU - 完整的INS和OUTS
除了新的Cortex-A77 CPU核心,ARM推出了一个发布了下一代智能手机SoC的下一代GPU。马里-G77,不要与新的混淆Mali-D77显示处理器,标志着ARM的BIFROST架构的离开,并转移到Valhall。
我们将在一瞬间进入新架构的细节。首先,我们将在绩效收益方面进入用户期望的内容。
Mali-G77性能概述
与当今的Mali-G76型号相比,ARM拥有Next-Gen Mali-G77器件的40%的图形性能提升。该号码正在考虑过程和架构改进。Mali-G77可从7到16个着色器核心配置,每个核心几乎与G76核心完全相同。这意味着高端智能手机可能会在今天的某处与他们所做的类似GPU核心计数。手上,这让我们对现有芯片组进行了一些投机性能评估。
看着受欢迎的曼哈顿GFXBench基准,40%的性能提升开辟了对当前一代硬件的相当大的铅。Qualcomm的下一代adreno芯片需要自己的重大绩效升级来保持竞争场地面。桌子似乎正在掌握手臂的青睐。
架构明智,游戏性能增加了20%至40%,而机器学习则获得60%的增压
基于这种相当粗暴的球形,一个10核心的Mali-G77(我们经常从华为看到的一组)看起来只是关于这一代的线路移动图形硬件的顶部。通常在三星的Exynos中看到的12个核心配置,为ARM最新的GPU提供了一个大的领导。当然,真实的基准将取决于其他因素,包括流程节点,GPU高速缓冲存储器,LPDDR内存配置以及您正在测试的应用程序类型。所以用余性盐的上述图表。
就单独的新架构而言,ARM表示,Mali-G77对能效和性能密度的平均提高30%。由于INT8 DOT产品支持,机器学习应用还有一个巨大的60%提升。游戏性能期望在20%和40%的升压之间设置,具体取决于图形工作负载的标题和类型。
要了解ARM已经实现了这种性能隆起的方法,让我们深入潜入架构。
遇见Valhall,Bifrost的继任者
Vahall是ARM的第二代标量GPU架构。它是一个16宽的执行引擎,其基本上意味着GPU每个循环的每个周期执行16个指令,每个处理单元每根核心。这是Bifrost的4和8宽。
其他新架构功能包括完全由硬件管理的动态指令调度以及保留与Bifrost的操作等价的全新指令集。其他包括对ARM的AFBC1.3压缩格式的支持,FP16渲染目标,分层渲染和顶点着色器输出。
Mali-G77比G76平行33%。
通过在核心内部检查执行单元来找到理解主要架构更改的键。GPU的这一部分负责数字嘎吱作响。
在执行引擎内
在Bifrost中,每个GPU核心在一些低端Mali-G52设计的情况下包含三个执行引擎或两个。每个引擎包含I-Cache,寄存器文件和翘曲控制单元。在Mali-G72中,每个发动机处理每周期4指令,在去年的Mali-G76中增加到8。跨越这三个核心允许12和24个32位浮点(FP32)融合乘法累积(FMA)指令每周期。
使用Valhall和Mali-G77,每个GPU核心内都有一个执行引擎。如前所述,该发动机容纳经线控制单元,寄存器和ICACHE,现在在两个处理单元上共享。每个处理单元每循环处理16个翘曲指令,总吞吐量为32 FP32 FMA指令的每个核心。在Mali-G76上指导吞吐量是33%的推动。
ARM已经从三个执行单位过渡到每个GPU核心,但现在G77内核中有两个处理单元。
此外,每个处理单元中的每一个包含两个新的数学函数块。新的转换单元(CVT)处理基本整数,逻辑,分支和转换指令。特殊功能单元(SFU)加速整数乘法,划分,平方根,对数和其他复杂整数函数。
标准FMA单元已经看到了几次调整,支持每周期的16个FP32指令,32 FP16或64 INT8点产品说明。这些优化在机器学习应用中产生了60%的性能隆起。
四边形纹理映射器
Mali-G77中的其他关键变化是引入四边形映射器,从前一代中的双纹理映射器。纹理映射器负责将场景中的3D多边形映射到屏幕上看到的2D表示。它负责采样,插值和过滤,以平滑成角度和移动内容,以避免苛刻,低质量的边缘。
低成本的抗混叠仍然存在有助于协助图像质量,但纹理性能的加倍是这里的主要优势。纹理单位现在进程4每个时钟的4个双线性折线从2个时钟,每个时钟的2个三轴纹塞,并处理更快的FP16和FP32过滤。
Quad纹理映射器分为两个路径,为在缓存中击中内容的线程提供更短的管道。处理格式转换和纹理解压缩的错误路径具有更广泛的L2缓存接口。这也有助于机器学习工作负载可能经常需要从内存中拉出新数据。
在马里-G77中将所有东西携带在一起
ARM已经为Mali-G77制作了许多其他调整,以与Valhall架构的主要变化重合。由于单个执行单元设计,控制块被简化,而内部动态调度器实际上允许在每个核心内发出更灵活的指令。在每个核心的吞吐量较高,数据疗法也较短,延迟较低,以前从8次下降到4周期。
新设计也与Vulkan API更好,简化驱动器描述符以降低驱动器开销,以改善“到金属”性能。
总之,Mali-G72和Valhall从Bifrost作出了重要的变化,这承诺为游戏和机器学习应用程序提高了显着性能。重要的是,该设计适合与Bifrost相同的电源和区域预算,确保移动设备能够提供更多的峰值性能,而无需担心热量,功率和硅成本。根据性能预测,Mali-G77应该能够为Qualcomm的下一代adreno提供良好的运行。