※ 本文轉寄自 ptt.cc 更新時間: 2011-07-05 14:40:22
※ 本文轉寄自 applejone.bbs@ptt.cc 時間: 2011-07-05 14:40:22看板 PC_Shopping
作者 標題 Re: [情報] 改架構 拼28nm,AMD顯卡7000呼之欲出
時間 Wed Jun 29 18:04:00 2011
這個解讀似乎有很大的誤解......
如果前一個洩漏的HD7000設計的投影片不是假造的話,
那麼HD7000並非放棄VLIW架構,反而是VLIW/SIMD雙模式.
但這種設計還比純粹的VLIW複雜一點...可能不太多啦,
畢竟以複雜度以及彈性來說VLIW高於SIMD,所以它的骨子
裡面仍然是VLIW.
但這種設計還比純粹的VLIW複雜一點...可能不太多啦,
畢竟以複雜度以及彈性來說VLIW高於SIMD,所以它的骨子
裡面仍然是VLIW.
可是增加一個SIMD的支援有甚麼好處?SIMD能做的VLIW也通
通能做啊...
例如,SIMD幫四組資料作加法:
ADD (x1,x2,c1),(x3,x4,c4),(x7,x9,c8),(x9,x10,c3)
VLIW下就是:
ADD (x1,x2,c1);ADD (x3,x4,c4);ADD (x7,x9,c8);ADD (x9,x10,c3)
最明顯的差別就是SIMD只要指定做一個ADD,四組資料會一樣的動作,
可是缺點就是它這四組得做同樣的動作.要想兩個去做加法兩個去做乘法
就不行了......實際對應到硬體實作,就是SIMD版本的指令會使用比較少的byte,
VLIW的會比較多,這其實有不少的好處,因為DirectX下的shader code有限制指令
buffer的長度,能用SIMD模式的話,例如原本塞800個指令是上限,可以多個1.5~2X,
做出更複雜的特效.搭配指令快取也會有比較好的效率....不過好處僅此為止.
VLIW的會比較多,這其實有不少的好處,因為DirectX下的shader code有限制指令
buffer的長度,能用SIMD模式的話,例如原本塞800個指令是上限,可以多個1.5~2X,
做出更複雜的特效.搭配指令快取也會有比較好的效率....不過好處僅此為止.
把所有可能性都納入考慮的話,HD7000的改變有可能為:
1.VLIW/SIMD雙模僅是過渡期,VLIW是相容,未來才會被取消掉.
老實說不太可能,跳去作純SIMD會造成災難性的問題.
我不用理論舉例好了...R600(HD2000)就是一個與其說VLIW但因為限制較大
還稍為接近SIMD的指令架構,R600跟R770(HD4000)的性能對比如何相信大家
都很清楚.....比R600更接近純SIMD會怎樣?
還稍為接近SIMD的指令架構,R600跟R770(HD4000)的性能對比如何相信大家
都很清楚.....比R600更接近純SIMD會怎樣?
而且改成SIMD,編譯器不會比較好作,加上DX GPU現在是拿虛擬的組合語言
去餵給driver,driver幫你最佳化重排.這個在純SIMD模式下不會省掉最佳化的
需求.只會更難做.假設以往的5D VLIW的compiler(IL to 硬體)複雜度是10,
那nVidia那邊的架構也會依賴(ptx to硬體),但簡單一點複雜度可能只有2
純SIMD下對compiler的依賴度可能一下跳到30以上.
要是這樣只能期待每個開發者都有一堆手寫組合語言大軍支持你....
不過ATI/AMD的GPU過去不管(只算n+A)市占6成還是4成,業餘開發者以ATI/AMD
GPU為標準的差不多都是2成上下.....那這方面還是它在現實中的弱勢.
所以放棄掉VLIW的確是不合理.....
2.VLIW/SIMD雙模式是新架構.
好處就是前面說的做某些事情的指令可以變短,但考慮到會因此增加指令編碼
的複雜度,也會增加硬體上指令解碼的額外複雜度.所以相抵之下可能不會比原有的
VLIW多塞入到2X的指令數量....再說現有的指令緩衝區大小,如果只是Pixel Shader
以及Vertex Shader等繪圖特效,指令上限數是很夠用很難用完的.
VLIW多塞入到2X的指令數量....再說現有的指令緩衝區大小,如果只是Pixel Shader
以及Vertex Shader等繪圖特效,指令上限數是很夠用很難用完的.
但是GPGPU,或者是想在遊戲上拿GPU幫你計算物理模擬的時候,這時候需要的指令
總數可能會比硬體一次能塞的多非常多......由於分段載入多少還會影響效能,
因此這個擴充到SIMD的方向在GPGPU以及物理模擬上會有很大的好處....
總數可能會比硬體一次能塞的多非常多......由於分段載入多少還會影響效能,
因此這個擴充到SIMD的方向在GPGPU以及物理模擬上會有很大的好處....
還有一個好處是在願意手寫GPU code的人上,假設新版的IL提供了SIMD的指令版本,
那花腦力手動寫IL,就可以在平行度很高的地方自行通通用SIMD版本下去寫,跳過
compiler的最佳化....
==
其實nV那邊就是一個說VLIW也可以但這因素不重要的硬體架構啦...
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.37.171.58
推 :看不懂 哈哈1F 06/29 18:05
推 :看不懂 推就對了!!!2F 06/29 18:06
推 :快推 免得被人發現看不懂......疑? 有人自招了3F 06/29 18:10
推 :推完還是不懂,應該可以吧?XD4F 06/29 18:12
推 :呱呱呱呱 (轟隆~~5F 06/29 18:13
推 :看不懂 推就對了!!!6F 06/29 18:14
推 : 看不懂 推就對了!!!7F 06/29 18:16
推 : 不懂 推就對了!!!8F 06/29 18:17
推 : 懂 推就對了!!!9F 06/29 18:18
推 :樓上好厲害~看得懂~10F 06/29 18:21
推 : 懂 推就對了!!!11F 06/29 18:23
推 :專業推 還是看不懂12F 06/29 18:24
→ :原來是這樣! 專業推13F 06/29 18:25
推 :看不懂 推就對了!!!14F 06/29 18:27
推 :看不懂 推就對了!!!15F 06/29 18:30
推 :...只能推了16F 06/29 18:35
推 :只看的懂結論 還是推!!17F 06/29 18:45
推 : 連看都沒看 推就對了!!! (喂18F 06/29 18:48
推 :看不懂 推就對了!!!19F 06/29 18:48
推 :爺~ 這是二進位的IO碼嗎@@?20F 06/29 18:50
→ :naruhodo21F 06/29 18:50
推 :快推 不然人家以為我們不懂22F 06/29 18:54
推 :看不懂推就對了23F 06/29 18:56
→ :看不懂 只給箭頭...XD24F 06/29 18:57
推 :看不懂 推就對了!!!25F 06/29 18:59
推 :不推人家以為我們看不懂26F 06/29 19:07
推 :好專業推一個27F 06/29 19:13
推 :有神快拜 我承認文章80%都不懂28F 06/29 19:17
推 :讓我想到了矩陣~29F 06/29 19:36
推 :快推 不然人家以為我們不懂30F 06/29 19:37
推 :快推 不然人家以為我們不懂31F 06/29 19:38
推 :INTEL表示:32F 06/29 19:39
推 :看不懂 推就對了!!!33F 06/29 19:43
推 :XDD 推34F 06/29 19:44
→ :請問SIMD的全名是???35F 06/29 19:49
推 :快推 不然人家以為我們不懂37F 06/29 19:56
推 :力洗勒公殺小~~~推啦!!!38F 06/29 19:57
推 :為什麼一篇90%以上的鄉民都看不懂的文章會被M阿 XD39F 06/29 20:22
→ :因為版主看得懂40F 06/29 20:24
推 :就是因為看不懂才會被M www41F 06/29 20:24
推 :不M的話 板主會被懷疑看不懂XD42F 06/29 20:25
→ :快推 不然人家以為我們不懂43F 06/29 20:31
→ :就像一畢卡索的畫一樣 很多看不懂也說名畫 誤44F 06/29 20:32
推 :誰...誰說我看不懂得 (?45F 06/29 20:32
推 :不然你解釋一下甚麼是VLIW46F 06/29 20:33
→ :不要偷GOOGLE
→ :不要偷GOOGLE
→ :Very long instruction word48F 06/29 20:34
推 :你的鳥跟我說你遠端GOOGLE49F 06/29 20:36
推 :有看沒有懂50F 06/29 20:42
推 :請jk大說明,所以7000有啥實際上的大突破呢?51F 06/29 20:56
我覺得沒有 就是一代一代的慢慢作改變下去,走VLIW/SIMD雙模式是種漸進的發展.
DX以來的顯卡晶片很少在一代就有重大的革命,唯一的例子是在踏入DX10的時候,
改US等於砍掉重來.結果就是我們看到的HD2900還有8600GT的晶片面積/效能比......
從舊有的VLIW過渡到VLIW/SIMD雙模式,平均每個SP占用的面積會增加一些,
不過它的好處如上所示.就算GPGPU的增益可能最大(附帶搭配HD7000其餘的
改進.可以發現它的改變程度不下於當初的Fermi),這部分在繪圖性能上也
會有好處.還有就是願意手動最佳化的開發者也可以得到比原有VLIW架構
更好的效果..
但是放棄掉VLIW變成純SIMD除了簡化硬體設計很多以外,壞處更多.
再說若是SIMD模式可行的話,別說今天的GPU廠商不會門檻高到只有n+A,
連Cell都有可能擔任GPU了.
另走途徑放棄掉VLIW架構不是不可能,但可能出現的模式應該是深度管線
或者是類似nV的架構的模式...
推 :還是好複雜 給個推好了 囧52F 06/29 21:46
推 :太專業了吧 @@53F 06/29 21:50
推 :太棒了.... 可以說白化文嗎.54F 06/29 22:05
→ :我看得懂你說的每個字!55F 06/29 22:12
推 :看不懂反正推就對了56F 06/29 22:14
推 :補推!!57F 06/29 22:15
推 :這篇文章值得留起來...58F 06/29 22:47
→ :讚XD59F 06/29 23:10
推 : 懂一半 推就對了!!!60F 06/29 23:29
推 :專業文推一個,雖然幾乎看不懂XD61F 06/29 23:35
推 :所以對玩家來說,南方的效能增加不多囉?28nm的優勢?62F 06/30 00:02
28nm的優勢就是至少再塞入兩倍的電晶體數量.而顯示晶片
電晶體數量加倍時性能也幾乎增加了一倍.
推 :都寫著每一代都是多一點多一點了 這兩家都一樣63F 06/30 00:02
推 :被樓上點醒了,6950=5870!!!64F 06/30 00:12
推 :6代是大改 所以有陣痛期 不過如果7又大改的話65F 06/30 00:34
→ :對手則是剛好4到5收割期 現在顯卡又NV上風去了
→ :對手則是剛好4到5收割期 現在顯卡又NV上風去了
HD6900的4D以此文的標準不算大改.因為HD7900的改變會大於5870<-->6970
中間的差別.雖說兩者都是微架構上有一定的變化.
→ :純SIMD是不是生產成本比較低?67F 06/30 02:00
應該需要的電晶體數量少多了.但是這時影響晶片面積的還有一個因素是暫存器
需要幾個Read/Write的port.
推 :推就對了68F 06/30 06:04
推 :完全看不懂,多來點嘴砲文讓我發揮吧。69F 06/30 07:51
※ 編輯: jk21234 來自: 114.37.133.91 (06/30 09:10)推 :看懂10% 還是要推!!70F 06/30 16:08
推 :看不懂 推就對了!!!71F 07/01 07:20
→ :請問那是GPU的Assembly嗎?72F 07/01 22:08
→ : 看起來是
→ : 看起來是
→ :那不是真的GPU asm,是示意....74F 07/02 22:54
--
※ 同主題文章:
06-29 14:22 ■ [轉寄][情報] 改架構 拼28nm,AMD顯卡7000呼之欲出
● 06-29 18:04 ■ [轉寄]Re: [情報] 改架構 拼28nm,AMD顯卡7000呼之欲出
※ 看板: PC_Shopping 文章推薦值: 0 目前人氣: 0 累積人氣: 119
作者 jk21234 的最新發文:
- 我970 1070 2080都有搶初期 首批沒有後的等待大約是3.5個月 2.5個月 ...2080印象不到2個月 3080自發表到發售前的熱度 體感上較為接近gtx980/970 的時候...所以有 …31F 21推
- 為什麼cache預料之外的hit會導致data外流.... 其實表面來說 資料沒有被讀出來 但是是被窮舉的方式猜出來的 基本原理 0. int64 a = rdtsc() RDTSC = Read t …72F 40推
- 消費級的就先不用嚇自己 因為 1. user mode的計算不會變慢 壓檔跟跑分是沒有因為這樣分數洗牌的 2. I/O syscall要多花時間所以變慢 但你自己的應用會是重度I/O嗎 而且原本dis …131F 56推
- OK 你看不出來 是因為你剛好錯開不一樣的年代 故事是這樣的 首先 除了Quicktime跟RM,當時大部分的壓縮的影像是來自於 JPEG/MPEG系列以及衍伸的技術 所以使用的壓縮方法都還蠻接近的. …84F 49推
- 今天拿來裝顯示卡 圖中是1070FE 約是10.5吋 如果裝了8吋以上的卡 會少兩個3.5擴充可用 上方5.25的只有上面兩個可以裝 光碟機 否則會撞到主機板 下面5.25頂多拿來轉接3.5吋 所以最 …90F 40推
點此顯示更多發文記錄
→
guest
回列表(←)
分享