GTX480年內難產NVIDIA費米面臨推倒重來

作者：Weber│2010-03-02 20:39:07│巴幣：0│人氣：812

-----------------------------------------------------
GTX480年內難產NVIDIA費米面臨推倒重來
來源：走進中關村
2010年02月22日14:07

　　有消息說，NVIDIA即將在3月27日再一次發佈他們由來已久的費米GF100（GTX480）顯卡。這個讓我們等待了有半年之久的顯卡究竟是什麼原因不斷跳票呢？現在就讓我們一起來瞭解一下GF100的近況——雖然最新流片的GF100從台積電回來已經幾個星期了，但是前景仍不容樂觀。

　　首先，我們在今年1月底得到消息，NVIDIA開始生產A3版GF100。儘管NVIDIA開始從台積電批量接收A3芯片，但是他們沒有為此高興，原因很簡單，A3版GF100芯片儘管工作頻率只有600MHz，但是發熱量已經達到極限的一半，並且其中為頂級產品準備的A3版GF100 SP數量只有448個。最重要的是，台積電的GF100芯片產率百分比還維持在個位數。

　　更為微妙的是，儘管GF100芯片已經降頻並削減了流處理器數量，但是芯片良率還是無法提升。更糟糕的是，如此之低的良率有可能讓GF100最終推倒重來，完全重新設計。

　　NVIDIA目前的首要任務就是提升GF100芯片的良率。如果你還記得，我們之前曾經說過，第一次流片的GF100發熱量巨大，良率極低，一片晶圓上的416個芯片當中只能挑選出7顆正常工作的芯片，也就是說GF100的良率低於2%。

　　GF100出現如此巨大的問題，可以追溯到之前他們在解決問題上的所作所為。GF100目前3個步進都被稱為金屬層流片，比完整的基礎層改進流片成本更低，速度更快，大約兩個月到看到結果。一個完整的基礎層重新流片時間超過一個季度，有可能超過6個月完成，費用超過100萬美元。金屬層流片通常以更大的數字代表流片版本，比如A1到A2，而基礎層重新流片通常以字母變化代表不同版本，比如A3到B1，NVIDIA通常以A1代表芯片首次流片，因此目前 A3版本是代表GF100第3次金屬層流片。

　　金屬層流片往往解決邏輯問題，比如1 + 1 = 3這類的錯誤，而不是解決芯片功耗或產率問題。大多產率問題往往涉及芯片採用的製造工藝，以及芯片工作頻率的既定指標和設計規則等等。因此，金屬層流片可以看作是芯片流片的簡化版本，不牽扯到功耗或良率問題。

　　NVIDIA在去年9月初得到第一批流片的GF100芯片，第一批流片的GF100時鐘速度為500MHz，芯片生產良率百分比徘徊在驚人的個位數，並且發熱量極大。

　　第二次流片的A2版GF100，工作頻率有所提升，但是芯片良率仍然低得嚇人，並且A2版GF100流片交付日期逾期一個月左右，所以你可以確信GF100芯片生產仍舊相當困難。這讓包括NVIDIA在內的任何芯片公司都無法容忍。

　　SemiAccurate網站在去年聖誕節已經聽說NVIDIA收到A3版流片樣品，A3版沒有改善芯片時鐘速度。這並不奇怪，因為 NVIDIA使用了錯誤的工具，即修改金屬層來修復時鐘速度和功耗問題。A3版芯片工作熱量也非常大。因此，在去年3月瞭解到GF100設計架構之後，我們一直堅持GF100「無法生產」這種觀點，如果NVIDIA要讓GF100可以生產，那麼必須推倒現在的GF100架構，重新設計GF100。

　　為什麼GF100境遇如此悲慘？答案很簡單，NVIDIA沒有為GF100生產做好準備。NVIDIA公司根本沒有做生產前的充足試驗和有條不紊的深謀遠慮。和ATI進行對比，我們可以看ATI採用HD4770（RV740芯片）來試驗台積電40納米工藝，並且從中總結經驗教訓，這種學習和汲取最終反饋到Radeon HD 5000系列GPU當中，因此5000系列GPU現在的良率完全在AMD可以接受的範圍之內。

　　NVIDIA公司在2009年第一季度計劃了四款40納米GPU產品－G212，G214，G216和G218，它們分別是55納米 G200b，G92b，G94和G96的40納米馬甲版。 G212向40納米邁進的情況非常糟糕，已經胎死腹中。G214的情況也好不到哪裡去，為了配合40納米大規模的生產，流處理器數量不得不從128個削減到96個，並且改名為G215，並終於在2009年11月批量投產，最終上市名稱改為GT240，G216最終名稱改為GT220， G218上市最終名稱改為G210。這些產品從規劃到上市過程當中，都有無數次改名運動，其中部分產品現在居然改名為300系列，NVIDIA從沒有給出過這樣命名的原因。

　　NVIDIA G215，G216和G218圖形芯片各自的芯片面積大約是139平方毫米，100平方毫米和57平方毫米。這些芯片面積都非常小，而高端55納米的G200b芯片面積超過480 平方毫米，更早的65納米G200芯片面積超過575平方毫米。

　　ATI早在2009年4月就開始大批量出貨面積為137平方毫米的GPU芯片。NVIDIA公司在40nm工藝上遇到嚴重問題，因此去年8月才開始向 OEM廠商出貨40納米G216和G218芯片，之後NVIDIA花費幾個月時間，才開始向零售渠道出貨40納米G215圖形芯片。

　類似圖形芯片之間有粗略的產率對比計算方法，即芯片面積之比的平方，比如200平方毫米芯片的產率是100平方毫米芯片產率的1/4，50平方毫米芯片產率是100平方毫米芯片產率的4倍。圖形芯片設計公司會為每一款芯片設計冗餘結構，以修複製造過程當中的某些類型的錯誤，但這種冗餘結構設計也有限制。

　　每個冗餘設計都增加了芯片的設計面積，因此提升芯片成本。半導體製造是一個複雜的權衡過程，需要考慮到冗餘面積成本與產率問題。如果你計劃得當，你可以用非常小的冗餘面積得到非常高的芯片產率。

　　去年春天和夏天，ATI已經向外界通報，他們在Radeon HD 5000系列芯片製造上吸取了RV740芯片製造的經驗教訓，這是一次非常富有成效的學習經驗。其中深藏不露的秘密就是吸取了40納米工藝在RV740芯片互連金屬層之間的問題。另外，他們也瞭解到台積電40納米工藝，在芯片晶體管構建上差異度非常大，特別是晶體管通道長度上。

　　既然Anandtech網站在Radeon HD 5000系列歷史文章當中談到這兩個秘密，現在繼續保密也毫無意義。這兩個秘密也改變了晶體管的設計和佈局，以減輕颱積電40納米工藝的差異度。並且它們消耗的冗餘面積也比較大，對芯片功耗也有負面影響，但是這都是向40納米進化必須付出的代價。

　　另一方面，NVIDIA公司在40納米工藝上沒有做足功課。SemiAccurate網站數次獲悉，NVIDIA解決這些的問題的方法是向台積電相關人士「尖叫」宣洩情緒，而不是積極改變芯片設計。

　　當NVIDIA公司發現問題並希望在GF100上進行修補的時候，為時已晚。除非台積電製造工藝出現奇蹟，否則基本上來看，GF100設計是注定要失敗。

　　可能有人要問為什麼？ GF100芯片面大約550平方毫米，比我們之前報導的略大。 NVIDIA公司在100平方毫米芯片上遇到問題，在139平方毫米芯片遇到三個月的嚴重延誤，的產量問題，並取消任何較大面積的芯片設計。NVIDIA 沒有像ATI一樣做足40納米功課，現在卻試圖以40納米生產550平方毫米的GF100芯片。

　　基本的數學計算表明，GF100面積4倍於G215，它們之間在芯片結構上有某些類似，所以你可以預料GF100產率約為G215的1/16， G215本身產率就不高，但即使G215的產率為99%，你也可以預期GF100產率百分比只有個位數。

　　修復這些問題需要NVIDIA公司做ATI之前做過的功課，即改變芯片設計以適應台積電40納米工藝。這個過程需要很長的工程設計時間和基礎層重新流片，並可能需要針對旗艦產品進行一次金屬層重新流片。如果一切順利，NVIDIA還需要6個月才能帶來GF100的完美版。

　　雖然這對NVIDIA來說是一件壞事，而且有可能讓讓GF100胎死腹中。但以目前情況來看，GF100實際上變得更糟，該芯片現在尺寸巨大，並且發熱量也很大。業內人士告訴SemiAccurate，在2010 CES上展示的GF100顯卡功耗280瓦。 NVIDIA公司在GF100第一次流片之前，就知道芯片將消耗巨大的電力這一情況，但它強調作為通用計算用途，GF100顯卡功耗並未超出225瓦大關。

　　為瞭解決這一問題，NVIDIA的工程師告訴 SemiAccurate，NVIDIA決定讓GF100芯片運行在一個非常低的電壓，即1.05v，相比之下，ATI Cypress(HD 5800系列)工作電壓在1.15V，TDP功耗在188W瓦，費米GF100的既定TDP功耗為225瓦，GF100每0.01v電壓提升會導致工作電流50%的提升，簡而言之，NVIDIA日後如果要選擇提升GF100工作電壓，將帶來更大的功耗和發熱量。

　　我們之前已經談到台積電40納米工藝有很大可變性和差異度。即有電流「洩漏」問題存在，這意味著和Cypress(HD 5800系列)以及工作頻率更低的樣品芯片相比，GF100零售版將消耗更多電力。這種問題的傳統緩解辦法是提升電壓，讓發生問題的晶體管正常工作，但這也使得晶體管洩漏更多電流，洩漏越多，芯片的發熱量也越大。

　　溫度更高的晶體管洩漏也比溫度較低的晶體管更多，所以芯片就進入1個由洩漏導致的高溫循環，讓洩漏問題越來越惡化。這種惡性循環的解決辦法之一，就是在顯卡上採用更加強悍的散熱器和散熱風扇，但這樣將提升顯卡成本，並且增加噪音。NVIDIA史上的GeForce 5800就是這種惡性循環的典型案例。

　　台積電40納米這種問題，意味著有大量分散的薄弱的晶體管分佈於芯片當中，並導致想當程度的漏電問題。如果NVIDIA提升電壓，那麼他們也同時大規模提升芯片的功耗。如果不提升電壓，那麼大量脆弱的晶體管基本上不工作，意味著芯片實際上是「破損」或「缺陷」的，這兩個目標相互對立，而NVIDIA現在低電壓，高電流的政策只會讓問題加速惡化。

　　如果這還不夠糟糕，消息來源告訴 SemiAccurate說，台積電40nm工藝非常熱敏感。晶體管漏電問題隨溫度提升成正比增加，激烈程度遠遠超過以前的工藝。如果你超過某一臨界溫度，漏電的快速上升令人震驚。

　　NVIDIA可採用的另一種方法是屏蔽那些過於脆弱的晶體管，保持電壓不變。不幸的是，GF100在架構上的設計，讓這個變通方法非常棘手。費米 GF100架構上由16個組的32個著色單元組成，構成全部512個著色器。從各方面來看，如果你要屏蔽脆弱的晶體管，你被迫去屏蔽整個1組32個著色單元，由於脆弱晶體管分散在整個圖形芯片當中，因此，屏蔽2組晶體管，把意味著你失去64個著色器，這種級別的著色器丟失，是NVIDIA無法承受的。

　　就當前的A3版本來說，消息來源告訴我們，NVIDIA不得不在兩個方面進行「修復」，即至少關閉2組著色器，丟失64個著色器，並加大電壓。這使得 GPU在消耗更多電力的同時，丟失至少12.5%的預期性能。如果你在一台個人電腦當中使用這種芯片那無所謂，但是如果在超級計算機當中，成百上千大量使用這種芯片，這意味著計算性能的大量丟失。

　　因為GF100功耗巨大且和晶體管薄弱，費米GF100根本不會運行在高工作頻率。去年3月，消息人士告訴SemiAccurate，預期的時鐘頻率為主頻750MHz，sp頻率1500MHz。既然你只能提升電壓凸現奇蹟，因此我們聽到了 A3版GF100只有600MHz，sp頻率只有1200MHz，而且是關閉2組著色器（64個著色器）之後的結果。

　　NVIDIA公司去年秋天聲稱GF100性能超過Cypress(HD 5800系列)百分之六十以上。現在聲稱的領先幅度迅速下降到百分之四十，在CES上，NVIDIA 公司只能挑選最適合GF100架構的遊戲和基準測試來炫耀它的架構優勢。這些淋漓盡致的百分之六十領先幅度，是他們認為最好的情況。

　　如果百分之六十的領先幅度來自512個著色器完全工作，750/1500MHz工作頻率，280瓦功耗的費米GF100，那麼448 個自著色器，600/1200MHz工作頻率的GPU只有87.5%的著色器數量和80%的工作頻率，那麼領先程度就是160*0.875*0.8 = 112，即領先Cypress(HD 5800系列)大約12%，不要忘記，ATI已經有兩顆Cypress(HD 5800系列)芯片的5970上市，費米 GF100性能不能指望接近5970。

　　費米GF100芯片面積比Cypress(HD 5800系列)大至少60%，這意味著它的成本也高出Cypress(HD 5800系列)百分之六十以上，實際情況有可能接近3倍之多。 NVIDIA公司需要GF100有顯著超越Cypress(HD 5800系列)的性能標竿，以訂出它可以獲利的價格點，即使不考慮產率問題。相比之下，ATI已設定HD 5970上限價格。

　　現在謠言四起，傳聞NVIDIA將只有5000到8000片GF100芯片，以GTX480型號投放市場。SemiAccurate有直接聽一個不太明確的數字，即「低於1萬片」。在今年3月底發佈GF100之前，GF100顯卡已經生產大約2個月時間。NVIDIA在去年年底從台積電購買了大約 9000片「風險」晶圓，如果每片晶圓可以拿出104顆芯片候選，那麼9000片晶圓意味著936K顆芯片。

　　即使NVIDIA將初始生產目標提升10倍，其產率仍然在一位數的範圍內。每片晶圓成本在5,000美元，每片晶圓拿出10顆正常工作的芯片，這是一個相對非常良好的狀態，這使得每顆GF100成本大約在500美元，即10倍於ATI的成本，再加上GTX480顯卡其它材料成本，讓其售價超越 ATI HD 5970，讓他GF100顯卡性價比遠低於HD 5970，並且其零售價格有可能接近於其它專業工作站和計算顯示卡價格。

　　GF100真正的修復，需要重新設計電路，儘量減少台積電工藝在晶體管差異上的影響。這都需要花費時間和芯片面積，從重新投片算起時間至少需要 6個月才能上市。如果你還記得，費米在去年7月下旬投片成功，在11月下旬接受少量預定。如果今天改進版的GF100開始投片，那麼要到2010年第三季度才能讓B1版GF100流片成功，那時競爭對手都接近於拿出下一代28納米圖形芯片，因此GF100就算改版，也不會有很長的使用壽命，它將很快被 28nm下一代芯片所取代。

　　NVIDIA公司如果進行必要的更改，這也會帶來另外兩個問題。 NVIDIA公司現在遇到兩個工程問題，即芯片尺寸瓶頸和功耗瓶頸。功耗瓶頸很簡單，一個PCI-E卡的300W的硬性限制，超過這個限制，你不會得到的 PCI-E認證，沒有認證意味著法律責任問題，OEM廠商不會讓他們的PC採用這種顯卡。這意味著顯卡已經在市場上死亡。到目前為止，GF100功耗已經達到 280W，NVIDIA公司已經在無法通過PCI-E認證的邊緣。

　　芯片尺寸瓶頸情況類似，你只能適應台積電40納米蝕刻工藝掩模的限制，G200已經幾乎接近於這種限制，費米GF100的任何變化設計，很可能會推動芯片的尺寸，讓其根本不適合台積電40納米工藝。在這一點上，唯一的辦法，是採用更加先進的28nm工藝，但第一個28nm工藝晶圓可以切割出正常工作芯片的時間，要到2010年最後幾天才行。

　　費米GF100芯片已經比最初計劃晚了6個月，即便可以批量生產，也已經無法獲得利潤。GF100初期產品，將有部分提供給公關用途，即提供給媒體和相關公關單位進行評測。NVIDIA每賣出一張GF100顯卡都受到了巨大的損失，也就是說，最初的9000片風險晶圓切割完畢之後，NVIDIA 不會再向台積電訂購這些晶圓，因此即便大部分GF100顯卡用作公關之用，NVIDIA也沒有什麼損失。

　　GF100芯片無法工作，無法生產，無法修復。如果NVIDIA公司在工程管理上還有作用，那麼它現在應該宣佈費米1代終結，集中資源進行費米 2代研發，並且有可能在2010年內還有勝算。如果打算對費米1代修修補補，基本上是不可行的，除非芯片直接採用28nm生產。

　　此情況讓NVIDIA一直到2011年，除了在公關方面繼續作文章之外，沒有任何希望。費米的衍生產品只存在於紙上，他們還沒有投片。如果 NVIDIA投片這些衍生產品，它們將在芯片尺寸、功耗和產率上遇到和費米GF100相同的問題。ATI將繼續對Cypress(HD 5800系列)衍生產品降價，因此，NVIDIA公司在衍生產品上無法賺錢，也無法及時解決問題。 NVIDIA在2010年內沒有任何可以獲利的DX 11產品，這種情況將一直持續到2010年的最後幾天。

　　正如我們自去年5月以來一直說，費米GF100是錯誤的芯片，以錯誤的方式製造，為了錯誤的原因。NVIDIA不顧一切批評競爭對手和產品，比如 Intel的Larabee，卻最終導致費米GF100 沉沒。英特爾常識性地重新調整Larabee芯片和相關公關戰略，而不是繼續向注定沉沒的貨船繼續砸入數千萬美元。NVIDIA的管理技能看上去不如 Intel，NVIDIA公司不僅設計了一個「Laughabee（可笑的bee）」，也違背所有意識和常識，繼續建造它們的「Laughabee（可笑的bee）」。

　　文章來源：

　　Nvidia's Fermi GTX480 is broken and unfixable

喜歡收藏引用留言推上首頁檢舉

引用網址：https://home.gamer.com.tw/TrackBack.php?sn=609972
Some rights reserved. 姓名標示-非商業性 2.5 台灣

相關創作

同標籤作品搜尋：|GTX480|GF100|電腦|顯示卡|Nvidia|