龍芯官宣未來三代GPGPU顯卡！從對標7年前RX550到進軍xnm、兼容CUDA

神马作文网教育资讯 2025-06-28 17:44:42 19

龍芯近日舉辦了盛大發布會，正式推出龍芯3C6000系列服務器處理器、龍芯2K3000/3B6000M工控與終端處理器，甚至預告了下一代CPU微架構。

與此同時，龍芯還回顧了在GPU圖形核心領域的發展歷程，首次披露了未來多代技術和產品規劃。

龍芯的主業是CPU通用處理器，而做GPU的最初目的很簡單，就是為了解決和龍芯CPU的配套問題，因為當時面臨著進口低端GPU晶片供貨不穩定不暢通、嵌入式GPU不適合桌面市場的情況。

有了自己的CPU、GPU，龍芯就可以形成自我配套，形成系統優勢，降低系統成本。

早在2016年，龍芯GPU項目就立項了，這個時間可能比很多人想像的都要早很多。

2017年開展圖形算法調研；2018年進行總體架構設計，同時開展結構模擬器設計；2019年完成模擬器驗證，轉入邏輯與結構設計階段。

龍芯2K2000

龍芯7A2000

2020年，龍芯首款GPU LG100誕生，應用於龍芯2K2000處理器、龍芯7A2000橋片(搭配(龍芯3號系列)，性能接近AMD R5 230，至此龍芯完成了GPU結構設計與驗證的全套工作。

2021年的LG110屬於小幅疊代升級，在相同面積下算力性能提升了一倍，也用於龍芯7A2000。

2022年的LG120則是又一次疊代，主要是提高了光柵化精度，優化了圖形與算法，龍芯2K2000後期用的就是它。

龍芯的GPU設計是從零開始自研的，沒有依賴境外IP，也沒有歷史包袱，技術上也早期的固定功能流水線、可編程流水線階段，直接進入了統一渲染流水線架構。

當然，龍芯GPU起點並不算高，初期僅能支持OpenGL 2.1、OpenGL ES 2.0，但已經能夠基本滿足現代桌面應用的顯示需求，可靠性和兼容性也都得到了市場驗證，尤其是大幅降低了龍芯終端的成本。

迄今為止，LG100系列的出貨規模已經超過了百萬顆。

2021年，LG100系列持續疊代的同時，龍芯就啟動了第二代LG200的調研與整體設計。

這一次，龍芯調整了GPU設計思路，從統一渲染架構進步到通用計算架構，將以往的圖形處理為中心，變成了計算為中心，這不亞於又一次從零起步。

之所以這麼快轉換方向，因為龍芯意識到，未來將是計算的天下，即使是圖形處理也以計算任務的形式存在。可以說，這也為後續的通用計算、AI處理髮展打下了基礎。

經過漫長而複雜的設計、驗證、疊代、磨合，加上配套驅動開發，一直到2024年，LG200才最終完工，用於這次發布的龍芯2K3000/3B6000M。

從路線圖上看，它也會有一個疊代升級版本LG210，預計會在後期的龍芯2K3000/3B6000M中使用。

龍芯2K3000/3B6000M中集成的LG200 GPU，圖形性能有了成倍的提高，像素填充率從2GP/s提高到4GP/s，紋理填充率從2GT/s提高到8GT/s，還支持OpenGL 3.3、OpenGL ES 3.1、OpenCL 1.1。

LG200還初步支持通用計算加速和AI加速，運行目標識別等AI任務、大語言模型等都沒有問題。

這可以說是龍芯的第一款GPGPU產品，官方宣稱900MHz頻率下FP16單精度浮點性能230.4 GFlops(2304億次每秒)、INT8整數性能7.2 TOPS(7.2萬億次每秒)。

事實上，它的頻率最高可以達到2.2-2.5GHz，適當開放頻率的話FP16浮點、INT8整數性能分別可以達到256 GFlops、8 TOPS。

GPGPU可以說是圖形處理器歷史發展的第四個階段，將通用計算、圖形渲染合為一體，一肩挑，這也是現代GPU的基礎特性。

對於龍芯來說，CPU補課基本完成，GPU依然還在補課階段，尤其是API支持，之前落後太多，下一步將逐步支持OpenGL 3.2/4.0、OpenCL 3.0(雖然它已經基本涼涼)，並加入新的Vulkan 1.1。

什麼？你說DirectX？這是個封閉標準，純自研的國產GPU暫時還做不到，除非買Imagination PowerVR之類的國外IP授權。

性能方面，龍芯GPU將首先繼續升級架構，全面實現基本功能，然後擴展功能和性能，全面優化挖潛，逐步實現圖形流水線、計算性能的可擴展，大力提高能效比、單位面積性能。

這就是龍芯說的「先通後專」的發展路線，也就是先做好通用的GPU，再做好專用的GPGPU，尤其是在AI方面，當然現階段主要面向端側的AI推理，滿足日常應用。

至於雲側的AI訓練，那是AI加速卡的工作，龍芯至少目前不考慮。

龍芯未來的GPGPU也要分為三步走，並開啟一個全新的龍芯9A系列，也可以叫LG300系列。

龍芯GPGPU的架構設計，看起來和NVIDIA的頗為相似，也是分為多個GPC(圖形處理集群)，彼此通過L1N網絡互連。

所有GPC加上二級緩存，通過L2N網絡連接各個頂層模塊，包括內存控制器、指令處理器、顯示控制器、視頻編解碼控制器、PCIe控制器。

不同矽片之間，還可以通過LCL龍鏈進行互連，大大擴充晶片規模和性能。

再深入來看，GPC內部由一條GP圖形流水線、多個SP流處理器組成，而每個流處理包括一個紋理單元、多個矢量單元，而每個矢量單元又包括16個FP16單精度浮點單元、1個FP32雙精度浮點單元、1個Tensor張量單元(就差AI單元了)。

每個單元的性能指標，也都已經確定。

需要強調的是，龍芯GPGPU雖然自研，但並不封閉，原則就是兼容主流、擁抱開源。

作為一套加速計算平台，龍芯GPGPU將具備全方位的能力，計算API方面不但支持傳統的OpenCL，更是提出了兼容CUDA(暫不清楚會如何做到)，可支撐訓練、推理、微調等全場景AI，覆蓋雲側、邊緣側、端側全領域。

此外，圖形API會緊跟OpenGL、Vulkan兩大行業主流，視頻編解碼加速支持會逐漸覆蓋更多格式。

龍芯9A1000：

已經進入設計尾聲階段，即將完成流片，2026年推出。

這將是龍芯首款GPGPU專用晶片，通過它初步走通和驗證設計思路，可用於獨立顯卡、AI加速卡。

它的定位比較低，成本也比較低，性能大致相當於AMD 7年前的入門顯卡RX 550，但已經支持曲面細分、計算著色器等特性，不過圖形API僅支持到OpenGL 4.0(RX 550 OpenGL 4.6)。

集成視頻編解碼模塊，支持最常見的H.264、H.265。

AI推理性能方面，預計INT8整數格式下達到32-40 TOPS。

龍芯9A2000：

2027年推出，將達到主流性能，實現完整功能，用於桌面和服務器。

通過架構優化、堆料雙管齊下，大力提升性能單位比，整體性能可以提升大約4倍，比如FP16浮點達到5 TFlops，INT8整數達到160 TOPS。

它還將首次支持雙矽片互連，性能再翻一倍，達到同工藝下的國際先進水平。

圖形API方面終於可以支持到OpenGL 4.6，張量單元支持包括BF16在內的更多數據格式，還加入虛擬化支持。

龍芯9A3000：

暫無時間表，將首次衝擊高端高性能，工藝和龍芯CPU一樣演進到xnm，頻率有望得以大幅提升，性能再次實現3-5倍的躍升。

本文地址： http://www.smzww.com/1431087.html

文章来源：快科技