NVIDIA GeForce 30系列
NVIDIA GeForce RTX 30系列是NVIDIA继GeForce RTX 20系列之後开发的圖形處理器系列。於2020年9月1日正式發佈,並於2020年9月17日開始發貨[1]。
File:RTX3000.png RTX 3080 創始版 | |
发布日期 | 2020年9月17日 |
---|---|
代号 | GA10x |
架构 | Ampere |
产品系列 | GeForce RTX |
制造工艺 | 三星 8nm |
显示卡 | |
中端GPU | GeForce RTX 3060 GeForce RTX 3050ti GeForce RTX 3050 |
高端GPU | GeForce RTX 3070 GeForce RTX 3060ti |
旗舰GPU | GeForce RTX 3090 GeForce RTX 3080 |
API支持 | |
Direct3D | Direct3D 12 Ultimate(12_2) |
OpenGL | OpenGL 4.6 |
OpenCL | OpenCL 1.2 |
Vulkan | Vulkan 1.2 |
历史 | |
前代产品 | NVIDIA GeForce 20系列 |
GeForce 30系列圖形處理器基于安培微架构, 擁有第二代光線追踪核心和第三代張量核心,其運行性能和能效約為之前图灵微架构圖形處理器的两倍[1][2],使用三星电子的8纳米工艺制造。
架構特性
在上一代圖靈架構,引入了分數據類型計算的理念,將整數型(INT32)和單精度浮點型(FP32)兩種不同的數據類型交給兩種不同的ALU進行計算,提高了SM單元的並行計算效率。不過現代遊戲應用中最為常見的還是FP 32計算,INT 32 ALU的使用率比FP 32 ALU的低。為提升計算效率,新一代安培架構引入了可同時支持INT 32和FP 32兩種數據類型的新ALU,取代了原本只支持INT 32計算的ALU。也就是說,現在有兩條不同的數據路徑(Datapath),一條能夠處理整數或單精度浮點,另一條只能處理單精度浮點計算。原本整個SM單元同時可以處理64個INT 32計算指令和64個FP 32計算指令,安培上則是變成128個FP 32計算指令或64個INT 32計算指令和64個FP 32計算指令。為配合規模有一定擴張的計算單元,安培SM的共享緩存/L1數據緩存容量從96KB增長到了128KB,同時其帶寬變為原來的兩倍。
第二代光線追踪核心
安培架構的光線追踪核心(RT Core)在圖靈架構的基礎上將三角形求交模塊數量增加到兩個(以並行方式運作),在基礎的BVH計算上面,新一代RT Core也能夠快上2倍。同時,第二代RT Core還增加了一個三角形位置內插模塊,在允許BVH內的數據做少量更新的情況下,就能實現移動物體運動模糊效果的顯著性能提升。在OptiX 7.0 中,開發人員可以為幾何體指定特定的移動路徑,讓每條射線和時間關聯起來,從而實現移動物體的所有運動模糊效果加速。
第三代張量核心
張量核心(Tensor Core)是專門針對深度學習加速設計的矩陣運算單元,可以執行基於深度學習的應用,例如光線追踪降噪和DLSS抗鋸齒渲染。圖靈中每個SM都配有8個Tensor Core(每個子核有兩個Tensor Core),每個週期可以執行512個FP16 Tensor操作。而在安培架構,每個SM裡有4個Tensor Core(每個子核有一個Tensor Core),但是每個Tensor Core的處理能力倍增,因此每個SM也能執行512個FP16 Tensor操作。
第三代Tensor Core引入了BF16、TF32 兩種新的數據格式,並引入硬件稀疏化技術,操作的能力上增加一倍達到等效每週期1024 個FP16 操作。
產品

型號 | 推出日期 | 核心 代號 |
製程 (nm) |
晶体管數 & 晶粒面積 |
核心配置 | 時脈頻率 | 填充率 | 顯示記憶體 | 運算性能 (TFLOPS) | 匯流排 介面 |
TDP (W) |
NVLink 支援 |
發售價格 (美金) | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
核心組態 SPs:TMUs:ROPs[lower-alpha 1] |
光追 核心 |
張量 核心 |
二級 暫存 (MB) |
預設 (MHz) |
加速 (MHz) |
記憶體 (MT/s) |
像素 (GP/s) |
材質 (GT/s) |
容量 (GB) |
頻寬 (GB/s) |
類型 | 介面 頻寬 (位元) |
單精度 (加速) |
雙精度 (加速) |
半精度 (加速) |
光追 浮點 |
張量 浮點 | |||||||||
GeForce RTX 3060Ti[3] |
2020年 12月04日 |
GA104- 200-A1 |
8 | 174億 392mm2 |
4864:152:80 (38 SM) |
38 | 152 | 4 | 1410 | 1665 | 14000 | 96 | 276 | 8 | 448 | GDDR6 | 256 | 13.7 (16.2) |
0.21 (0.25) |
13.7 (16.2) |
32 | 130 | PCIe 4.0 x16 |
200 | 否 | $399 |
GeForce RTX 3070[4] |
2020年 10月29日 |
GA104- 300-A1 |
5888:184:64 (46 SM) |
46 | 184 | 1500 | 1730 | 96 | 276 | 17.7 (20.4) |
0.55 (0.64) |
35.3 (40.7) |
40 | 163 | 220 | $499 | ||||||||||
GeForce RTX 3080[5] |
2020年 9月17日 |
GA102- 200-Kx-A1 |
283億 628mm2 |
8704:272:96 (68 SM) |
68 | 272 | 5 | 1440 | 1710 | 9500 (19000)[lower-alpha 2] |
138.2 | 391.7 | 10 | 760 | GDDR6X | 320 | 25.1 (29.8) |
0.78 (0.93) |
50.1 (59.5) |
58 | 238 | 320 | $699 | |||
GeForce RTX 3090[6] |
2020年 9月24日 |
GA102- 300-A1 |
10496:328:112 (82 SM) |
82 | 328 | 6 | 1400 | 1700 | 9750 (19500)[lower-alpha 2] |
156.8 | 459.2 | 24 | 936 | 384 | 29.4 (35.7) |
0.92 (1.12) |
58.8 (71.4) |
69 | 285 | 350 | 2路 NVLink |
$1499 |
- 流處理器數量 : 纹理映射單元數量 : 渲染输出单元數量 。面向非专业用途的Ampere架构中每个GPC由16个ROP及最多12个SM组成,每个SM固定包括128个流处理器(单精度浮点处理器)、64个32位长整型处理器、4个TMU、4个张量核心和1个光线追踪核心;GA100核心的浮点处理器配置则略有不同,参见NVIDIA Tesla
- 类似于早已在闪存行业应用的MLC技术,GDDR6X一次存取可以操作两个比特,括號內用於比較GDDR6的等效傳輸速率
参考文献
- . 英伟达. [September 1, 2020]. (原始内容存档于2020-09-02).
- Walton, Jarred. . Tom's 硬體指南. August 31, 2020.
- . NVIDIA. [2020-09-01]. (原始内容存档于2020-09-01) (美国英语).
- . NVIDIA. [2020-09-01]. (原始内容存档于2020-09-01) (美国英语).
- . NVIDIA. [2020-09-01]. (原始内容存档于2020-09-01) (美国英语).
- . www.nvidia.com. [2020-09-01]. (原始内容存档于2020-09-01) (美国英语).