Arm Ethos-N78:觸手可及前所未有的機器學習能力


作者:Raviraj Mahatme May 26, 2020


我們的日常生活會產生大量的數據與資訊,這包括數位、生物、物理與知覺等類型。隨著人工智慧(AI)的精進,這些數據可以用來替人類創造出驚人的好處。為了實現此一挑戰並擷取有用的資訊,我們必須在數據產生時,能夠在它產生的地方進行處理。Arm致力於賦能終端的機器學習(ML),讓數據能夠在真實的世界中進行處理、分析與利用,並為客戶提供多重好處:從強化安全性與隱私性,到更高的可靠性與回應性。


有了Arm的技術協助,ML的工作負載會在Arm Cortex-A CPU運行,這是全世界最尖端的ML處理器,部署於全球幾乎每一隻手機上,以及各式各樣的其它裝置上。不過,若有專門一顆神經網路處理器(NPU),ML能因NPU能提升數倍的效能與效率而受惠。NPU的處理能力可以賦能令人興奮的全新應用發展,為我們帶來真正的數位沉浸。其中的一個例子是購物的應用,它可在實體空間中放置虛擬物件,或是利用智慧家庭中樞 (hub) 擴增實境為小朋友說故事的。除了智慧手機,NPU也可以賦能各種裝置,例如能拯救生命的智慧嬰兒攝影機,它可用於監控嬰兒的呼吸或體溫。


Ethos-N78神經網路處理器(NPU)介紹

Ethos-N78 NPU是Arm具高度擴充性與高效率的第二代NPU,可以帶來終端的機器學習,並在Ethos-N77成功的基礎上發揚光大。Ethos-N78 NPU能支援每秒1 TOP到每秒10 TOP,並支援各種組態。


Ethos-N78支援超過90種獨特的組態,並允許合作夥伴針對乘加器(MAC)、靜態隨機存取記憶體(SRAM)以及向量能力進行組態,Ethos-N78提供矽晶圓合作夥伴前所未有的彈性,此彈性確保夥伴們可以精細調整他們的設計,以便達成效能、耗電功率與面積間的最佳平衡。此外,Ethos-N78也可應用於各式各樣的裝置上,並擁有完整且透明的軟體相容性與可攜性。


SoC 架構前所未有的彈性


以少做多

Ethos-N78與前一代產品相比,面積效率最高達到30%的提升,讓合作夥伴得以在更小的矽晶片面積上達成更好的效率。矽晶片面積雖然是重要的成本度量,但動態隨機存取記憶體(DRAM)的頻寬,同樣也是電子系統中珍貴的資源。Ethos-N78的設計讓它使用特別少的DRAM頻寬,每個推論 (inference) 消耗的DRAM數據最多可以減少40%,讓我們的夥伴得以用更少的記憶體實作ML,進一步降低系統的耗電與成本。Ethos-N78允許在軟體的應用內廣泛使用ML,同時能確保長的電池續航時間。


性能和效率的提升


統一的軟體與工具

ML要順利運作,高效的硬體只是其中一部份的條件,同樣重要的是讓開發人員擁有高效率的軟體堆疊,以便在目標硬體上部署他們選用的ML網路。Ethos-N78的軟體堆疊提供兩種流程可供選擇:基於TVM編譯器 (TVM compiler) 的離線編譯流程,以及供基於Arm NN 的安卓NN API所使用的解譯(終端或線上)流程。離線與線上流程在各種目標Arm硬體IP(CPU、GPU與NPU)都會統一運作,讓我們可以寫入一次即可於多處部署。由於它支援所有主流框架,包括TensorFlow、TensorFlow Lite、PyTorch 與ONNX等,開發人員因此可以繼續使用自己偏好的框架。


Ethos-N 靜態效能分析器工具 (Static Performance Analyzer) 對Ethos-N NPU提供支援,確保開發人員在有可用的晶片之前,就能在Ethos-N NPU上設定與調整他們的網路,大幅縮短產品上市時程。


為開發人員提供統一的軟體堆疊



提供令人興奮的體驗

今日使用ML的多元應用與裝置,都需要NPU具有高度彈性與可調適性以滿足各式各樣的需求。過去幾年終端ML的使用已出現長足的進展,考量到智慧手機初期採用的終端ML主要應用於包括臉部解鎖與語音用戶界面等功能,今日我們看到ML應用擴展並涵蓋新的創新用例,包括做出很棒的照片與很酷的擴增實境應用。在行動應用以外,我們發現ML越來越廣泛地使用在下列各種應用中,包括HD高解析保全攝影機、智慧家庭中樞 (hub) 與數位電視,以達成新的功能與用戶體驗。具有無與倫比彈性且效能與耗電效率同時精進的Ethos-N78 NPU,使我們的合作夥伴能在終端裝置上釋放出ML的潛力。