龍芯官宣未來三代GPGPU顯卡!從對標7年前RX550到進軍xnm、兼容CUDA

神马作文网 教育资讯 1

龍芯近日舉辦了盛大發布會,正式推出龍芯3C6000系列服務器處理器、龍芯2K3000/3B6000M工控與終端處理器,甚至預告了下一代CPU微架構。

與此同時,龍芯還回顧了在GPU圖形核心領域的發展歷程,首次披露了未來多代技術和產品規劃。

龍芯的主業是CPU通用處理器,而做GPU的最初目的很簡單,就是為了解決和龍芯CPU的配套問題,因為當時面臨著進口低端GPU晶片供貨不穩定不暢通、嵌入式GPU不適合桌面市場的情況。

有了自己的CPU、GPU,龍芯就可以形成自我配套,形成系統優勢,降低系統成本。

早在2016年,龍芯GPU項目就立項了,這個時間可能比很多人想像的都要早很多。

2017年開展圖形算法調研;2018年進行總體架構設計,同時開展結構模擬器設計;2019年完成模擬器驗證,轉入邏輯與結構設計階段。

龍芯2K2000

龍芯7A2000

2020年,龍芯首款GPU LG100誕生,應用於龍芯2K2000處理器、龍芯7A2000橋片(搭配(龍芯3號系列),性能接近AMD R5 230,至此龍芯完成了GPU結構設計與驗證的全套工作。

2021年的LG110屬於小幅疊代升級,在相同面積下算力性能提升了一倍,也用於龍芯7A2000。

2022年的LG120則是又一次疊代,主要是提高了光柵化精度,優化了圖形與算法,龍芯2K2000後期用的就是它。

龍芯的GPU設計是從零開始自研的,沒有依賴境外IP,也沒有歷史包袱,技術上也早期的固定功能流水線、可編程流水線階段,直接進入了統一渲染流水線架構。

當然,龍芯GPU起點並不算高,初期僅能支持OpenGL 2.1、OpenGL ES 2.0,但已經能夠基本滿足現代桌面應用的顯示需求,可靠性和兼容性也都得到了市場驗證,尤其是大幅降低了龍芯終端的成本。

迄今為止,LG100系列的出貨規模已經超過了百萬顆。

2021年,LG100系列持續疊代的同時,龍芯就啟動了第二代LG200的調研與整體設計。

這一次,龍芯調整了GPU設計思路,從統一渲染架構進步到通用計算架構,將以往的圖形處理為中心,變成了計算為中心,這不亞於又一次從零起步。

之所以這麼快轉換方向,因為龍芯意識到,未來將是計算的天下,即使是圖形處理也以計算任務的形式存在。可以說,這也為後續的通用計算、AI處理髮展打下了基礎。

經過漫長而複雜的設計、驗證、疊代、磨合,加上配套驅動開發,一直到2024年,LG200才最終完工,用於這次發布的龍芯2K3000/3B6000M。

從路線圖上看,它也會有一個疊代升級版本LG210,預計會在後期的龍芯2K3000/3B6000M中使用。

龍芯2K3000/3B6000M中集成的LG200 GPU,圖形性能有了成倍的提高,像素填充率從2GP/s提高到4GP/s,紋理填充率從2GT/s提高到8GT/s,還支持OpenGL 3.3、OpenGL ES 3.1、OpenCL 1.1。

LG200還初步支持通用計算加速和AI加速,運行目標識別等AI任務、大語言模型等都沒有問題。

這可以說是龍芯的第一款GPGPU產品,官方宣稱900MHz頻率下FP16單精度浮點性能230.4 GFlops(2304億次每秒)、INT8整數性能7.2 TOPS(7.2萬億次每秒)。

事實上,它的頻率最高可以達到2.2-2.5GHz,適當開放頻率的話FP16浮點、INT8整數性能分別可以達到256 GFlops、8 TOPS。

GPGPU可以說是圖形處理器歷史發展的第四個階段,將通用計算、圖形渲染合為一體,一肩挑,這也是現代GPU的基礎特性。

對於龍芯來說,CPU補課基本完成,GPU依然還在補課階段,尤其是API支持,之前落後太多,下一步將逐步支持OpenGL 3.2/4.0、OpenCL 3.0(雖然它已經基本涼涼),並加入新的Vulkan 1.1。

什麼?你說DirectX?這是個封閉標準,純自研的國產GPU暫時還做不到,除非買Imagination PowerVR之類的國外IP授權。

性能方面,龍芯GPU將首先繼續升級架構,全面實現基本功能,然後擴展功能和性能,全面優化挖潛,逐步實現圖形流水線、計算性能的可擴展,大力提高能效比、單位面積性能。

這就是龍芯說的「先通後專」的發展路線,也就是先做好通用的GPU,再做好專用的GPGPU,尤其是在AI方面,當然現階段主要面向端側的AI推理,滿足日常應用。

至於雲側的AI訓練,那是AI加速卡的工作,龍芯至少目前不考慮。

龍芯未來的GPGPU也要分為三步走,並開啟一個全新的龍芯9A系列,也可以叫LG300系列。

龍芯GPGPU的架構設計,看起來和NVIDIA的頗為相似,也是分為多個GPC(圖形處理集群),彼此通過L1N網絡互連。

所有GPC加上二級緩存,通過L2N網絡連接各個頂層模塊,包括內存控制器、指令處理器、顯示控制器、視頻編解碼控制器、PCIe控制器。

不同矽片之間,還可以通過LCL龍鏈進行互連,大大擴充晶片規模和性能。

再深入來看,GPC內部由一條GP圖形流水線、多個SP流處理器組成,而每個流處理包括一個紋理單元、多個矢量單元,而每個矢量單元又包括16個FP16單精度浮點單元、1個FP32雙精度浮點單元、1個Tensor張量單元(就差AI單元了)。

每個單元的性能指標,也都已經確定。

需要強調的是,龍芯GPGPU雖然自研,但並不封閉,原則就是兼容主流、擁抱開源。

作為一套加速計算平台,龍芯GPGPU將具備全方位的能力,計算API方面不但支持傳統的OpenCL,更是提出了兼容CUDA(暫不清楚會如何做到),可支撐訓練、推理、微調等全場景AI,覆蓋雲側、邊緣側、端側全領域。

此外,圖形API會緊跟OpenGL、Vulkan兩大行業主流,視頻編解碼加速支持會逐漸覆蓋更多格式。

龍芯9A1000:

已經進入設計尾聲階段,即將完成流片,2026年推出。

這將是龍芯首款GPGPU專用晶片,通過它初步走通和驗證設計思路,可用於獨立顯卡、AI加速卡。

它的定位比較低,成本也比較低,性能大致相當於AMD 7年前的入門顯卡RX 550,但已經支持曲面細分、計算著色器等特性,不過圖形API僅支持到OpenGL 4.0(RX 550 OpenGL 4.6)。

集成視頻編解碼模塊,支持最常見的H.264、H.265。

AI推理性能方面,預計INT8整數格式下達到32-40 TOPS。

龍芯9A2000:

2027年推出,將達到主流性能,實現完整功能,用於桌面和服務器。

通過架構優化、堆料雙管齊下,大力提升性能單位比,整體性能可以提升大約4倍,比如FP16浮點達到5 TFlops,INT8整數達到160 TOPS。

它還將首次支持雙矽片互連,性能再翻一倍,達到同工藝下的國際先進水平。

圖形API方面終於可以支持到OpenGL 4.6,張量單元支持包括BF16在內的更多數據格式,還加入虛擬化支持。

龍芯9A3000:

暫無時間表,將首次衝擊高端高性能,工藝和龍芯CPU一樣演進到xnm,頻率有望得以大幅提升,性能再次實現3-5倍的躍升。


抱歉,评论功能暂时关闭!