NVIDIA GeForce 30系列

NVIDIA GeForce RTX 30系列NVIDIAGeForce RTX 20系列之後开发的圖形處理器系列。於2020年9月1日正式發佈,並於2020年9月17日開始發貨[1]

GeForce 30系列

File:RTX3000.png
RTX 3080 創始版
发布日期2020年9月17日2020-09-17
代号GA10x
架构Ampere
产品系列GeForce RTX
制造工艺三星 8nm
显示卡
中端GPUGeForce RTX 3060
GeForce RTX 3050ti
GeForce RTX 3050
高端GPUGeForce RTX 3070
GeForce RTX 3060ti
旗舰GPUGeForce RTX 3090
GeForce RTX 3080
API支持
Direct3DDirect3D 12 Ultimate(12_2)
OpenGLOpenGL 4.6
OpenCLOpenCL 1.2
VulkanVulkan 1.2
历史
前代产品NVIDIA GeForce 20系列

GeForce 30系列圖形處理器基于安培微架构, 擁有第二代光線追踪核心和第三代張量核心,其運行性能和能效約為之前图灵微架构圖形處理器的两倍[1][2],使用三星电子8纳米工艺制造。

架構特性

在上一代圖靈架構,引入了分數據類型計算的理念,將整數型(INT32)和單精度浮點型(FP32)兩種不同的數據類型交給兩種不同的ALU進行計算,提高了SM單元的並行計算效率。不過現代遊戲應用中最為常見的還是FP 32計算,INT 32 ALU的使用率比FP 32 ALU的低。為提升計算效率,新一代安培架構引入了可同時支持INT 32和FP 32兩種數據類型的新ALU,取代了原本只支持INT 32計算的ALU。也就是說,現在有兩條不同的數據路徑(Datapath),一條能夠處理整數或單精度浮點,另一條只能處理單精度浮點計算。原本整個SM單元同時可以處理64個INT 32計算指令和64個FP 32計算指令,安培上則是變成128個FP 32計算指令或64個INT 32計算指令和64個FP 32計算指令。為配合規模有一定擴張的計算單元,安培SM的共享緩存/L1數據緩存容量從96KB增長到了128KB,同時其帶寬變為原來的兩倍。

第二代光線追踪核心

安培架構的光線追踪核心(RT Core)在圖靈架構的基礎上將三角形求交模塊數量增加到兩個(以並行方式運作),在基礎的BVH計算上面,新一代RT Core也能夠快上2倍。同時,第二代RT Core還增加了一個三角形位置內插模塊,在允許BVH內的數據做少量更新的情況下,就能實現移動物體運動模糊效果的顯著性能提升。在OptiX 7.0 中,開發人員可以為幾何體指定特定的移動路徑,讓每條射線和時間關聯起來,從而實現移動物體的所有運動模糊效果加速。

第三代張量核心

張量核心(Tensor Core)是專門針對深度學習加速設計的矩陣運算單元,可以執行基於深度學習的應用,例如光線追踪降噪和DLSS抗鋸齒渲染。圖靈中每個SM都配有8個Tensor Core(每個子核有兩個Tensor Core),每個週期可以執行512個FP16 Tensor操作。而在安培架構,每個SM裡有4個Tensor Core(每個子核有一個Tensor Core),但是每個Tensor Core的處理能力倍增,因此每個SM也能執行512個FP16 Tensor操作。

第三代Tensor Core引入了BF16、TF32 兩種新的數據格式,並引入硬件稀疏化技術,操作的能力上增加一倍達到等效每週期1024 個FP16 操作。

產品

GeForce RTX 3090
型號 推出日期 核心
代號
製程
(nm)
晶体管數
&
晶粒面積
核心配置 時脈頻率 填充率 顯示記憶體 運算性能 (TFLOPS) 匯流排
介面
TDP
(W)
NVLink
支援
發售價格
(美金)
核心組態
SPs:TMUs:ROPs[lower-alpha 1]
光追
核心
張量
核心
二級
暫存

(MB)
預設
(MHz)
加速
(MHz)
記憶體
(MT/s)
像素
(GP/s)
材質
(GT/s)
容量
(GB)
頻寬
(GB/s)
類型 介面
頻寬
(位元)
單精度
(加速)
雙精度
(加速)
半精度
(加速)
光追
浮點
張量
浮點
GeForce
RTX
3060Ti[3]
2020年
12月04日
GA104-
200-A1
8 174億
392mm2
4864:152:80
(38 SM)
38 152 4 1410 1665 14000 96 276 8 448 GDDR6 256 13.7
(16.2)
0.21
(0.25)
13.7
(16.2)
32 130 PCIe
4.0
x16
200 $399
GeForce
RTX
3070[4]
2020年
10月29日
GA104-
300-A1
5888:184:64
(46 SM)
46 184 1500 1730 96 276 17.7
(20.4)
0.55
(0.64)
35.3
(40.7)
40 163 220 $499
GeForce
RTX
3080[5]
2020年
9月17日
GA102-
200-Kx-A1
283億
628mm2
8704:272:96
(68 SM)
68 272 5 1440 1710 9500
(19000)[lower-alpha 2]
138.2 391.7 10 760 GDDR6X 320 25.1
(29.8)
0.78
(0.93)
50.1
(59.5)
58 238 320 $699
GeForce
RTX
3090[6]
2020年
9月24日
GA102-
300-A1
10496:328:112
(82 SM)
82 328 6 1400 1700 9750
(19500)[lower-alpha 2]
156.8 459.2 24 936 384 29.4
(35.7)
0.92
(1.12)
58.8
(71.4)
69 285 350 2路
NVLink
$1499
  1. 流處理器數量 : 纹理映射單元數量 : 渲染输出单元數量 。面向非专业用途的Ampere架构中每个GPC由16个ROP及最多12个SM组成,每个SM固定包括128个流处理器(单精度浮点处理器)、64个32位长整型处理器、4个TMU、4个张量核心和1个光线追踪核心;GA100核心的浮点处理器配置则略有不同,参见NVIDIA Tesla
  2. 类似于早已在闪存行业应用的MLC技术,GDDR6X一次存取可以操作两个比特,括號內用於比較GDDR6的等效傳輸速率

另見

参考文献

  1. . 英伟达. [September 1, 2020]. (原始内容存档于2020-09-02).
  2. Walton, Jarred. . Tom's 硬體指南. August 31, 2020.
  3. . NVIDIA. [2020-09-01]. (原始内容存档于2020-09-01) (美国英语).
  4. . NVIDIA. [2020-09-01]. (原始内容存档于2020-09-01) (美国英语).
  5. . NVIDIA. [2020-09-01]. (原始内容存档于2020-09-01) (美国英语).
  6. . www.nvidia.com. [2020-09-01]. (原始内容存档于2020-09-01) (美国英语).

外部链接

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.