當前人工智能(AI)計算主要是指以深度學習為代表的神經網絡算法為主,傳統的CPU、GPU都可以用來做AI算法的運算,但其并不是針對深度學習特性設計和優化的,所以在速度和性能上都無法完全適配AI算法特性,通常來說,AI芯片指的是針對人工智能算法特性做特殊設計的ASIC(專用芯片)。
當前深度學習算法在圖像識別、語音識別、自然語言處理等領域都有非常廣泛的應用,常見的深度學習網絡包括CNN,RNN以及Transformer等,他們本質上都是大量矩陣或向量的乘法、加法的組合。比如主流的圖像目標檢測算法YOLO-V3,其主要由大量的卷積、殘差、全連接等類型的計算組成,其本質是大量的乘法和加法操作。以運算神經網絡算法為代表的AI專用芯片,需要硬件具有高效的線性代數運算能力,其特點為:單個任務簡單、并行運算量大、數據讀寫操作量大,邏輯控制要求低等。所以其對芯片的并行運算、片上存儲、高帶寬、低延時等有更高的要求。
當前GPU是較為成熟的用于深度學習訓練和推理的芯片之一,谷歌、 微軟和百度等公司都在使用GPU做深度學習相關的模型訓練和推理計算。GPU提供了高效并行計算的能力,且核心數非常多,可以支撐大量數據的并行計算,NVIDIA還開發了專用加速庫cuDNN和推理工具TensorRT以加速深度學習在GPU上計算效率。盡管GPU在深度學習中有非常廣泛的應用,但由于GPU設計初衷并非專門針對深度學習,而是為圖形計算設計的,因而其在性能和功耗等方面也存在一定的局限性:一是GPU注重的是低維數據結構,對深度學習的高維數據處理相對低效;二是圖形計算需要較高的精度,而深度學習推理則可以在更低的精度下有效運行;三是GPU數據放在外部存儲上,使用共享存儲進行核心間通訊,這會造成帶寬和延遲的瓶頸。ASIC則可以更有針對性地進行硬件設計和優化,所以為了獲得更好的性能和功耗比,在深度學習算法穩定后,往往還需要采用全定制化人工智能芯片在性能、功耗和面積等指標上做進一步的優化。
鄭重聲明:文中僅代表作者觀點,不代表本公司觀點,本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或者刪除,感謝您的關注!