創作內容

0 GP

GTX480年內難產NVIDIA費米面臨推倒重來

作者:Weber│2010-03-02 20:39:07│巴幣:0│人氣:812
-----------------------------------------------------
GTX480年內難產NVIDIA費米面臨推倒重來
來源:走進中關村
2010年02月22日14:07


  有消息說,NVIDIA即將在3月27日再一次發佈他們由來已久的費米GF100(GTX480)顯卡。這個讓我們等待了有半年之久的顯卡究竟是什麼原因不斷跳票呢?現在就讓我們一起來瞭解一下GF100的近況——雖然最新流片的GF100從台積電回來已經幾個星期了,但是前景仍不容樂觀。

  首先,我們在今年1月底得到消息,NVIDIA開始生產A3版GF100。儘管NVIDIA開始從台積電批量接收A3芯片,但是他們沒有為此高興,原因很簡單,A3版GF100芯片儘管工作頻率只有600MHz,但是發熱量已經達到極限的一半,並且其中為頂級產品準備的A3版GF100 SP數量只有448個。最重要的是,台積電的GF100芯片產率百分比還維持在個位數。

  更為微妙的是,儘管GF100芯片已經降頻並削減了流處理器數量,但是芯片良率還是無法提升。更糟糕的是,如此之低的良率有可能讓GF100最終推倒重來,完全重新設計。

  NVIDIA目前的首要任務就是提升GF100芯片的良率。如果你還記得,我們之前曾經說過,第一次流片的GF100發熱量巨大,良率極低,一片晶圓上的416個芯片當中只能挑選出7顆正常工作的芯片,也就是說GF100的良率低於2%。

  GF100出現如此巨大的問題,可以追溯到之前他們在解決問題上的所作所為。GF100目前3個步進都被稱為金屬層流片,比完整的基礎層改進流片成本更低,速度更快,大約兩個月到看到結果。一個完整的基礎層重新流片時間超過一個季度,有可能超過6個月完成,費用超過100萬美元。金屬層流片通常以更大的數字代表流片版本,比如A1到A2,而基礎層重新流片通常以字母變化代表不同版本,比如A3到B1,NVIDIA通常以A1代表芯片首次流片,因此目前 A3版本是代表GF100第3次金屬層流片。

  金屬層流片往往解決邏輯問題,比如1 + 1 = 3這類的錯誤,而不是解決芯片功耗或產率問題。大多產率問題往往涉及芯片採用的製造工藝,以及芯片工作頻率的既定指標和設計規則等等。因此,金屬層流片可以看作是芯片流片的簡化版本,不牽扯到功耗或良率問題。

  NVIDIA在去年9月初得到第一批流片的GF100芯片,第一批流片的GF100時鐘速度為500MHz,芯片生產良率百分比徘徊在驚人的個位數,並且發熱量極大。

  第二次流片的A2版GF100,工作頻率有所提升,但是芯片良率仍然低得嚇人,並且A2版GF100流片交付日期逾期一個月左右,所以你可以確信GF100芯片生產仍舊相當困難。這讓包括NVIDIA在內的任何芯片公司都無法容忍。

  SemiAccurate網站在去年聖誕節已經聽說NVIDIA收到A3版流片樣品,A3版沒有改善芯片時鐘速度。這並不奇怪,因為 NVIDIA使用了錯誤的工具,即修改金屬層來修復時鐘速度和功耗問題。A3版芯片工作熱量也非常大。因此,在去年3月瞭解到GF100設計架構之後,我們一直堅持GF100「無法生產」這種觀點,如果NVIDIA要讓GF100可以生產,那麼必須推倒現在的GF100架構,重新設計GF100。

  為什麼GF100境遇如此悲慘?答案很簡單,NVIDIA沒有為GF100生產做好準備。NVIDIA公司根本沒有做生產前的充足試驗和有條不紊的深謀遠慮。和ATI進行對比,我們可以看ATI採用HD4770(RV740芯片)來試驗台積電40納米工藝,並且從中總結經驗教訓,這種學習和汲取最終反饋到Radeon HD 5000系列GPU當中,因此5000系列GPU現在的良率完全在AMD可以接受的範圍之內。

  NVIDIA公司在2009年第一季度計劃了四款40納米GPU產品-G212,G214,G216和G218,它們分別是55納米 G200b,G92b,G94和G96的40納米馬甲版。 G212向40納米邁進的情況非常糟糕,已經胎死腹中。G214的情況也好不到哪裡去,為了配合40納米大規模的生產,流處理器數量不得不從128個削減到96個,並且改名為G215,並終於在2009年11月批量投產,最終上市名稱改為GT240,G216最終名稱改為GT220, G218上市最終名稱改為G210。這些產品從規劃到上市過程當中,都有無數次改名運動,其中部分產品現在居然改名為300系列,NVIDIA從沒有給出過這樣命名的原因。

  NVIDIA G215,G216和G218圖形芯片各自的芯片面積大約是139平方毫米,100平方毫米和57平方毫米。 這些芯片面積都非常小,而高端55納米的G200b芯片面積超過480 平方毫米,更早的65納米G200芯片面積超過575平方毫米。

  ATI早在2009年4月就開始大批量出貨面積為137平方毫米的GPU芯片。NVIDIA公司在40nm工藝上遇到嚴重問題,因此去年8月才開始向 OEM廠商出貨40納米G216和G218芯片,之後NVIDIA花費幾個月時間,才開始向零售渠道出貨40納米G215圖形芯片。

 類似圖形芯片之間有粗略的產率對比計算方法,即芯片面積之比的平方,比如200平方毫米芯片的產率是100平方毫米芯片產率的1/4,50平方毫米芯片產率是100平方毫米芯片產率的4倍。圖形芯片設計公司會為每一款芯片設計冗餘結構,以修複製造過程當中的某些類型的錯誤,但這種冗餘結構設計也有限制。

  每個冗餘設計都增加了芯片的設計面積,因此提升芯片成本。半導體製造是一個複雜的權衡過程,需要考慮到冗餘面積成本與產率問題。如果你計劃得當,你可以用非常小的冗餘面積得到非常高的芯片產率。

  去年春天和夏天,ATI已經向外界通報,他們在Radeon HD 5000系列芯片製造上吸取了RV740芯片製造的經驗教訓,這是一次非常富有成效的學習經驗。其中深藏不露的秘密就是吸取了40納米工藝在RV740芯片互連金屬層之間的問題。另外,他們也瞭解到台積電40納米工藝,在芯片晶體管構建上差異度非常大,特別是晶體管通道長度上。

  既然Anandtech網站在Radeon HD 5000系列歷史文章當中談到這兩個秘密,現在繼續保密也毫無意義。這兩個秘密也改變了晶體管的設計和佈局,以減輕颱積電40納米工藝的差異度。並且它們消耗的冗餘面積也比較大,對芯片功耗也有負面影響,但是這都是向40納米進化必須付出的代價。

  另一方面,NVIDIA公司在40納米工藝上沒有做足功課。SemiAccurate網站數次獲悉,NVIDIA解決這些的問題的方法是向台積電相關人士「尖叫」宣洩情緒,而不是積極改變芯片設計。

  當NVIDIA公司發現問題並希望在GF100上進行修補的時候,為時已晚。除非台積電製造工藝出現奇蹟,否則基本上來看,GF100設計是注定要失敗。

  可能有人要問為什麼? GF100芯片面大約550平方毫米,比我們之前報導的略大。 NVIDIA公司在100平方毫米芯片上遇到問題,在139平方毫米芯片遇到三個月的嚴重延誤,的產量問題,並取消任何較大面積的芯片設計。NVIDIA 沒有像ATI一樣做足40納米功課,現在卻試圖以40納米生產550平方毫米的GF100芯片。

  基本的數學計算表明,GF100面積4倍於G215,它們之間在芯片結構上有某些類似,所以你可以預料GF100產率約為G215的1/16, G215本身產率就不高,但即使G215的產率為99%,你也可以預期GF100產率百分比只有個位數。

  修復這些問題需要NVIDIA公司做ATI之前做過的功課,即改變芯片設計以適應台積電40納米工藝。這個過程需要很長的工程設計時間和基礎層重新流片,並可能需要針對旗艦產品進行一次金屬層重新流片。如果一切順利,NVIDIA還需要6個月才能帶來GF100的完美版。

  雖然這對NVIDIA來說是一件壞事,而且有可能讓讓GF100胎死腹中。但以目前情況來看,GF100實際上變得更糟,該芯片現在尺寸巨大,並且發熱量也很大。業內人士告訴SemiAccurate,在2010 CES上展示的GF100顯卡功耗280瓦。 NVIDIA公司在GF100第一次流片之前,就知道芯片將消耗巨大的電力這一情況,但它強調作為通用計算用途,GF100顯卡功耗並未超出225瓦大關。

  為瞭解決這一問題,NVIDIA的工程師告訴 SemiAccurate,NVIDIA決定讓GF100芯片運行在一個非常低的電壓,即1.05v,相比之下,ATI Cypress(HD 5800系列)工作電壓在1.15V,TDP功耗在188W瓦,費米GF100的既定TDP功耗為225瓦,GF100每0.01v電壓提升會導致工作電流50%的提升,簡而言之,NVIDIA日後如果要選擇提升GF100工作電壓,將帶來更大的功耗和發熱量。

  我們之前已經談到台積電40納米工藝有很大可變性和差異度。即有電流「洩漏」問題存在,這意味著和Cypress(HD 5800系列)以及工作頻率更低的樣品芯片相比,GF100零售版將消耗更多電力。這種問題的傳統緩解辦法是提升電壓,讓發生問題的晶體管正常工作,但這也使得晶體管洩漏更多電流,洩漏越多,芯片的發熱量也越大。

  溫度更高的晶體管洩漏也比溫度較低的晶體管更多,所以芯片就進入1個由洩漏導致的高溫循環,讓洩漏問題越來越惡化。這種惡性循環的解決辦法之一,就是在顯卡上採用更加強悍的散熱器和散熱風扇,但這樣將提升顯卡成本,並且增加噪音。NVIDIA史上的GeForce 5800就是這種惡性循環的典型案例。

  台積電40納米這種問題,意味著有大量分散的薄弱的晶體管分佈於芯片當中,並導致想當程度的漏電問題。如果NVIDIA提升電壓,那麼他們也同時大規模提升芯片的功耗。如果不提升電壓,那麼大量脆弱的晶體管基本上不工作,意味著芯片實際上是「破損」或「缺陷」的,這兩個目標相互對立,而NVIDIA現在低電壓,高電流的政策只會讓問題加速惡化。

  如果這還不夠糟糕,消息來源告訴 SemiAccurate說,台積電40nm工藝非常熱敏感。晶體管漏電問題隨溫度提升成正比增加,激烈程度遠遠超過以前的工藝。如果你超過某一臨界溫度,漏電的快速上升令人震驚。

  NVIDIA可採用的另一種方法是屏蔽那些過於脆弱的晶體管,保持電壓不變。不幸的是,GF100在架構上的設計,讓這個變通方法非常棘手。費米 GF100架構上由16個組的32個著色單元組成,構成全部512個著色器。從各方面來看,如果你要屏蔽脆弱的晶體管,你被迫去屏蔽整個1組32個著色單元,由於脆弱晶體管分散在整個圖形芯片當中,因此,屏蔽2組晶體管,把意味著你失去64個著色器,這種級別的著色器丟失,是NVIDIA無法承受的。

  就當前的A3版本來說,消息來源告訴我們,NVIDIA不得不在兩個方面進行「修復」,即至少關閉2組著色器,丟失64個著色器,並加大電壓。這使得 GPU在消耗更多電力的同時,丟失至少12.5%的預期性能。如果你在一台個人電腦當中使用這種芯片那無所謂,但是如果在超級計算機當中,成百上千大量使用這種芯片,這意味著計算性能的大量丟失。

  因為GF100功耗巨大且和晶體管薄弱,費米GF100根本不會運行在高工作頻率。去年3月,消息人士告訴SemiAccurate,預期的時鐘頻率為主頻750MHz,sp頻率1500MHz。既然你只能提升電壓凸現奇蹟,因此我們聽到了 A3版GF100只有600MHz,sp頻率只有1200MHz,而且是關閉2組著色器(64個著色器)之後的結果。

  NVIDIA公司去年秋天聲稱GF100性能超過Cypress(HD 5800系列)百分之六十以上。現在聲稱的領先幅度迅速下降到百分之四十,在CES上,NVIDIA 公司只能挑選最適合GF100架構的遊戲和基準測試來炫耀它的架構優勢。這些淋漓盡致的百分之六十領先幅度,是他們認為最好的情況。

  如果百分之六十的領先幅度來自512個著色器完全工作,750/1500MHz工作頻率,280瓦功耗的費米GF100,那麼448 個自著色器,600/1200MHz工作頻率的GPU只有87.5%的著色器數量和80%的工作頻率, 那麼領先程度就是160*0.875*0.8 = 112,即領先Cypress(HD 5800系列)大約12%,不要忘記,ATI已經有兩顆Cypress(HD 5800系列)芯片的5970上市,費米 GF100性能不能指望接近5970。

  費米GF100芯片面積比Cypress(HD 5800系列)大至少60%,這意味著它的成本也高出Cypress(HD 5800系列)百分之六十以上,實際情況有可能接近3倍之多。 NVIDIA公司需要GF100有顯著超越Cypress(HD 5800系列)的性能標竿,以訂出它可以獲利的價格點,即使不考慮產率問題。 相比之下,ATI已設定HD 5970上限價格。

  現在謠言四起,傳聞NVIDIA將只有5000到8000片GF100芯片,以GTX480型號投放市場。SemiAccurate有直接聽一個不太明確的數字,即「低於1萬片」。在今年3月底發佈GF100之前,GF100顯卡已經生產大約2個月時間。NVIDIA在去年年底從台積電購買了大約 9000片「風險」晶圓,如果每片晶圓可以拿出104顆芯片候選,那麼9000片晶圓意味著936K顆芯片。

  即使NVIDIA將初始生產目標提升10倍,其產率仍然在一位數的範圍內。每片晶圓成本在5,000美元,每片晶圓拿出10顆正常工作的芯片,這是一個相對非常良好的狀態,這使得每顆GF100成本大約在500美元,即10倍於ATI的成本,再加上GTX480顯卡其它材料成本,讓其售價超越 ATI HD 5970,讓他GF100顯卡性價比遠低於HD 5970,並且其零售價格有可能接近於其它專業工作站和計算顯示卡價格。

  GF100真正的修復,需要重新設計電路,儘量減少台積電工藝在晶體管差異上的影響。這都需要花費時間和芯片面積,從重新投片算起時間至少需要 6個月才能上市。如果你還記得,費米在去年7月下旬投片成功,在11月下旬接受少量預定。如果今天改進版的GF100開始投片,那麼要到2010年第三季度才能讓B1版GF100流片成功,那時競爭對手都接近於拿出下一代28納米圖形芯片,因此GF100就算改版,也不會有很長的使用壽命,它將很快被 28nm下一代芯片所取代。

  NVIDIA公司如果進行必要的更改,這也會帶來另外兩個問題。 NVIDIA公司現在遇到兩個工程問題,即芯片尺寸瓶頸和功耗瓶頸。功耗瓶頸很簡單,一個PCI-E卡的300W的硬性限制,超過這個限制,你不會得到的 PCI-E認證,沒有認證意味著法律責任問題,OEM廠商不會讓他們的PC採用這種顯卡。這意味著顯卡已經在市場上死亡。到目前為止,GF100功耗已經達到 280W,NVIDIA公司已經在無法通過PCI-E認證的邊緣。

  芯片尺寸瓶頸情況類似,你只能適應台積電40納米蝕刻工藝掩模的限制,G200已經幾乎接近於這種限制,費米GF100的任何變化設計,很可能會推動芯片的尺寸,讓其根本不適合台積電40納米工藝。在這一點上,唯一的辦法,是採用更加先進的28nm工藝,但第一個28nm工藝晶圓可以切割出正常工作芯片的時間,要到2010年最後幾天才行。

  費米GF100芯片已經比最初計劃晚了6個月,即便可以批量生產,也已經無法獲得利潤。GF100初期產品,將有部分提供給公關用途,即提供給媒體和相關公關單位進行評測。NVIDIA每賣出一張GF100顯卡都受到了巨大的損失,也就是說,最初的9000片風險晶圓切割完畢之後,NVIDIA 不會再向台積電訂購這些晶圓,因此即便大部分GF100顯卡用作公關之用,NVIDIA也沒有什麼損失。

  GF100芯片無法工作,無法生產,無法修復。如果NVIDIA公司在工程管理上還有作用,那麼它現在應該宣佈費米1代終結,集中資源進行費米 2代研發,並且有可能在2010年內還有勝算。如果打算對費米1代修修補補,基本上是不可行的,除非芯片直接採用28nm生產。

  此情況讓NVIDIA一直到2011年,除了在公關方面繼續作文章之外,沒有任何希望。費米的衍生產品只存在於紙上,他們還沒有投片。如果 NVIDIA投片這些衍生產品,它們將在芯片尺寸、功耗和產率上遇到和費米GF100相同的問題。ATI將繼續對Cypress(HD 5800系列)衍生產品降價,因此,NVIDIA公司在衍生產品上無法賺錢,也無法及時解決問題。 NVIDIA在2010年內沒有任何可以獲利的DX 11產品,這種情況將一直持續到2010年的最後幾天。

  正如我們自去年5月以來一直說,費米GF100是錯誤的芯片,以錯誤的方式製造,為了錯誤的原因。NVIDIA不顧一切批評競爭對手和產品,比如 Intel的Larabee,卻最終導致費米GF100 沉沒。英特爾常識性地重新調整Larabee芯片和相關公關戰略,而不是繼續向注定沉沒的貨船繼續砸入數千萬美元。NVIDIA的管理技能看上去不如 Intel,NVIDIA公司不僅設計了一個「Laughabee(可笑的bee)」,也違背所有意識和常識,繼續建造它們的「Laughabee(可笑的bee)」。

  文章來源:

  Nvidia's Fermi GTX480 is broken and unfixable
引用網址:https://home.gamer.com.tw/TrackBack.php?sn=609972
Some rights reserved. 姓名標示-非商業性 2.5 台灣

相關創作

同標籤作品搜尋:|GTX480|GF100|電腦|顯示卡|Nvidia|

留言共 0 篇留言

我要留言提醒:您尚未登入,請先登入再留言

喜歡★Weberkkk 可決定是否刪除您的留言,請勿發表違反站規文字。

前一篇:(轉)遊戲迷與一般人 情... 後一篇:女生的分手理由真的很好找...

追蹤私訊切換新版閱覽

作品資料夾

Lobster0627全體巴友
大家可以多多來我的YT頻道看看哦(*´∀`)~♥https://www.youtube.com/@lobstersandwich看更多我要大聲說昨天17:43


face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】