最佳日常交易
最佳日常交易

关于Androidbob体育提现bob哪个彩靠谱权威的链接可能会使我们赢得佣金。学到更多。

电话不需要NPU就可以从机器学习中受益

当今的智能手机越来越多地配备了专用的机器学习硬件,但是您无需花钱就可以从技术中受益。
经过
2017年11月3日

神经网络和机器学习是今年智能手机处理器世界上最大的流行语。华为的Hisilicon基林970,苹果的A11仿生和图像处理单元(IPU)在Google Pixel 2中,所有对这项新兴技术的专用硬件支持。

到目前为止的趋势表明机器学习需要苹果称之为的专用硬件,例如神经处理单元(NPU),IPU或“神经发动机”。但是,现实是这些只是自定义数字信号处理器(DSP)的精美词,即,硬件专门用于快速执行复杂的数学功能。当今最新的自定义硅是围绕机器学习和神经网络操作进行了专门优化的,其中最常见的是DOT产品数学和Matrix Multiply。

为什么智能手机芯片突然在内,包括AI处理器?
特征
Kirin 970处理器。

尽管OEM会告诉您,但这种方法还是不利的。神经网络仍然是一个新兴领域,最适合某些用例的操作类型可能会随着研究的继续而改变。这些早期设计不再是对设备进行防止,而是很快就会过时。现在在早期硅上进行投资是一个昂贵的过程,它可能需要修订,因为最好的移动用例变得显而易见。

在此阶段,硅设计师和OEM不会投资这些复杂的电路中的中高层产品,这就是为什么这些专用处理器目前仅用于最昂贵的智能手机的原因。预计明年将在SOC中首次亮相的ARM的新处理器组件将有助于适应更有效的机器学习算法没有不过,专门的处理器。

2018年很有希望的机器学习

Arm宣布了它Cortex-A75和A55 CPUMali-G72 GPU在今年早些时候的设计。虽然发射的重点大部分是该公司的新产品Dynamiiq技术,这三种新产品也能够支持更有效的机器学习算法。

神经网络通常不需要非常高的精度数据,尤其是在训练之后,这意味着数学通常可以在16位甚至8位数据上执行,而不是大型32或64位条目。这节省了内存和缓存要求,并大大改善了内存带宽,这些内存带宽已经是智能手机SOC中的资产有限。

作为Cortex-A75和A55的ARMV8.2-A体系结构的一部分,ARM引入了对半精度浮点(FP16)和NEON的整数点产品(INT8)的支持 - ARM的高级单个指导多个数据架构。FP16的引入将转换阶段从前一个体系结构中删除为FP32,从而减少了开销和加速处理。

ARM的新INT8操作将多个指令结合在一起,以提高延迟。当在A55上包含可选的霓虹灯管道时,INT8性能在A53上可以提高4倍,从而使核心成为计算低精度机器学习数学的非常有效的方法。

2018年的移动SOC围绕ARM的Cortex-A75,A55和Mali-G72建造,将在开箱即用的情况下看到机器学习的改进。

在GPU方面,ARM的Bifrost架构是专门设计的,以促进系统连贯性。这意味着Mali-G71和G72能够直接与CPU共享缓存存储器,从而通过允许CPU和GPU更加紧密地合作来加快计算工作负载。鉴于GPU旨在处理大量的平行数学,因此与CPU的近距离婚姻是处理机器学习算法的理想安排。

借助较新的Mali-G72,ARM进行了许多优化以改善数学性能,包括用于加快点产品,卷积和矩阵乘法的融合乘数ADD(FMA)。所有这些对于机器学习算法至关重要。G72还可以为FP32和FP16说明提供高达17%的能源效率,这是移动应用程序中的重要收益。

总而言之,2018年的移动SOC围绕ARM的Cortex-A75,A55和Mali-G72建造,包括中高层的移动SOC将对机器学习算法进行大量提高。尽管尚未宣布任何产品,但这些改进几乎可以肯定会进入明年的一些高通公司,Mediatek,Hisilicon和Samsung Socs。

今天可用的计算库

虽然已经考虑了下一代技术,但当今的移动CPU和GPU已经可以用于运行机器学习应用程序。将Arm的努力绑在一起是它的计算库。该库包括一组用于成像和视觉项目的功能,以及Google TensorFlow等机器学习框架。库的目的是允许可以在各种ARM硬件配置上运行的便携式代码。

CPU功能是使用霓虹灯实现的,该功能使开发人员能够将其重新编译为目标体系结构。该库的GPU版本由使用OpenCL标准API编写的内核程序组成并为Mali进行了优化。关键的外卖是机器学习不必为拥有自己专用硬件的封闭平台保留。该技术已经用于广泛使用的组件。

超越手机:为什么高通公司在机器学习,VR和5G上大放异彩
特征

ARM并不是唯一使开发人员为其硬件生产便携式代码的公司。高通也有自己的Hexagon SDK为了帮助开发人员利用其Snapdragon移动平台中发现的DSP功能。Hexagon SDK 3.1包括用于机器学习中使用的卷积网络的一般矩阵矩阵乘法(GEMM)库,该库在其DSP上比在CPU上更有效地运行。

高通也有交响系统经理SDK,它提供了一套专门设计的API,围绕着赋予计算机视觉,图像/数据处理和低级算法开发的异质计算。高通公司可能会使用专用单元,但它还使用其DSP进行音频,成像,视频和其他常见的智能手机任务。

那么,为什么要使用专用处理器呢?

如果您想知道为什么任何OEM都希望在阅读所有这些内容后打扰神经网络的定制硬件,那么自定义硬件仍然有一个很大的好处:性能和效率。例如,华为夸耀其在Kirin 970内部的NPU为1.9​​2 tflops fp16吞吐量,这超过Kirin 970的Mali-G72 GPU可以实现的3倍以上(〜0.6 Tflops FP16)。

尽管ARM的最新CPU和GPU拥有许多机器学习能源和性能改进,但针对非常特定的任务和有限的操作进行了优化的专用硬件将始终更有效。

从这个意义上讲,ARM缺乏华为和其他实施自己的自定义NPU的公司提供的效率。同样,一种涵盖具有成本效益的实施的方法是为了查看机器学习行业在采取行动之前如何解决。如果有足够的需求,ARM尚未排除将来为芯片设计人员提供自己的专用机器学习硬件。ARM的GPU部门前任负责人Jem Davies现在正领导该公司的新机器学习部门。不过,目前尚不清楚他们在此阶段正在做什么。

重要的是,对于消费者而言,在明年的CPU和GPU设计中逐步进行的改进意味着,即使是成本较低的智能手机,就放弃了专用的神经网络处理器的费用,这将为机器学习带来一些显着的性能优势。反过来,这将鼓励投资和开发更有趣的用例,这是对消费者的双赢。对于移动和机器学习来说,2018将是一个激动人心的时刻。