123,123

你的位置：首頁 > 電源管理 > 正文

下一代尖端AI系統(tǒng)的電源解決方案

發(fā)布時間：2021-09-02 來源：Yat Tam 責任編輯：wenwei

【導讀】人工智能（AI）綜合了多種解決問題的方法，例如數(shù)學、計算統(tǒng)計、機器學習和預測分析。AI系統(tǒng)通過基于計算機的“神經”網(wǎng)絡來模仿人腦學習并解決問題。這種神經網(wǎng)絡由并行處理器組成，能夠運行復雜的學習任務并執(zhí)行軟件算法。如今的AI還在改革計算架構，以復制模仿人腦的神經網(wǎng)絡。盡管在具有傳統(tǒng)中央處理器（CPU）的服務器上也可以訓練或開發(fā)通用模型，但大多數(shù)神經網(wǎng)絡都需要自定義的內置硬件來進行訓練。

圖形處理單元（GPU）和張量處理單元（TPU）是用于加速神經網(wǎng)絡訓練的常見加速器。它們可以處理重復性和密集型計算，但卻異常耗電。例如，早期的AI市場主導者英偉達的DGX-1 GPU超級計算機內置8個Tesla P100 GPU，每個GPU算力達到21.2 TeraFLOP，總共需要3200W的系統(tǒng)總功率。最新一代的DGX-2超級計算機則內置16個Tesla V100 GPU，每個GPU算力達2 petaFLOP，所需系統(tǒng)總功率達到10kW。因此，AI市場將迅速增長以滿足不斷增長的電源需求也就不足為奇了。

電源設計挑戰(zhàn)

AI電源系統(tǒng)設計人員面臨多方面的挑戰(zhàn)。提供千瓦功率是他們的第一個挑戰(zhàn)，而且效率絕對至關重要。要知道，這些計算系統(tǒng)是以全功率運行的復雜負載。活躍度下降，功率需求也會隨之下降。系統(tǒng)必須在整個電力需求中保持盡可能高的效率。浪費的每一瓦能量都會作為熱量消散，并轉化為數(shù)據(jù)中心對散熱系統(tǒng)的更高要求，這會增加運營成本以及碳足跡。

空間成本也在不斷上升。現(xiàn)代數(shù)據(jù)中心都包含成百上千個處理單元，因此設備大小非常重要。減小單個單元的尺寸，就可以在與大型解決方案相同的空間中應用更多設備，從而實現(xiàn)更高的處理能力密度。然而，越小的尺寸越要求極大地提高功率密度，并減小散熱面積。這使得散熱管理成為下一代尖端CPU、GPU和TPU電源設計面臨的重大挑戰(zhàn)之一。

另外，系統(tǒng)復雜性的增加和設計周期的壓縮使設計資源更加緊張。資源大部分被分配給系統(tǒng)關鍵知識產權的開發(fā)，這意味著電源方案相關的電路常常被忽略，直到開發(fā)周期的后期。實際上，我們只需很少的時間，并且可能只需很少的電源設計資源就可以解決上述的挑戰(zhàn)，得到理想的整體電源解決方案，它將是節(jié)省空間的、高效的、可擴展的、靈活的，并且只需要最少的設計工作。

數(shù)字控制與模擬控制解決方案

模擬控制解決方案現(xiàn)在已無法應對AI市場中快速增長的電源需求?，F(xiàn)在的電源系統(tǒng)更加智能，它被集成到整體解決方案中，與主CPU/GPU/TPU之間的通信也成為一項設計要求。在為AI市場設計高端電源解決方案時，數(shù)字控制解決方案將占據(jù)主導。

理想的控制解決方案應當兼容多種產品（例如Intel、AMD、PMBus），并且因可擴展且配置靈活而易于使用。包括MPS在內的很多公司都提供了這類理想的高級控制器（參見表1）。它們提供了廣泛而準確的系統(tǒng)控制，同時提供詳細而精確的監(jiān)測。電壓、電流、頻率和故障監(jiān)測均可在寬范圍內進行配置。工程師可以實時訪問這些監(jiān)測值，以全面了解解決方案的性能。有經驗的工程師還可以通過預測分析來優(yōu)化運行時間，并在需要維修時獲取更多可用數(shù)據(jù)，從而最大程度地縮短停機時間。

表1：高級控制器vs.模擬和數(shù)字控制解決方案

功率級：集成是關鍵

顯而易見，電源解決方案沒有功率級就無法工作，而功率級通常會采用分立式解決方案。分立式解決方案由驅動器IC和一對外部MOSFET組成，為三芯片解決方案。還有一種方法是將多芯片驅動器-MOSFET（DrMOS）共同封裝到一個IC解決方案中。如前所述，不斷縮小的系統(tǒng)板面積使三芯片解決方案變得不再理想，因為它增加了有限板空間中的組件數(shù)量。共同封裝的多芯片解決方案體積更小，所需的組件也更少；不過，其封裝內部的寄生電感仍然很高，這會導致效率的損失，對AI等大功率應用而言也不理想。

圖1：功率級的常用實現(xiàn)方法

與傳統(tǒng)的分立式和多芯片解決方案不同，MPS提供了一種單片功率級解決方案。其功率級具有低靜態(tài)電流、同步降壓柵極驅動器以及單個芯片上的一對上管和下管MOSFET。通過將所有關鍵元件集成在一個封裝中，可以輕松控制驅動器/MOSFET，并最大程度地減少開關節(jié)點處的振鈴。另外，封裝和板級之間的寄生電感也被大大降低。這種設計可以實現(xiàn)最先進的CPU/GPU/TPU設計所需的低輸出電壓下更高的效率。

單片功率級只需最少數(shù)量的外部組件，因此簡化了原理圖以及PCB布局。其基本設計可以分兩步完成：

1. 選擇適當數(shù)量的輸入和輸出電容器以滿足電壓和電流紋波要求；

2. 選擇一個電感器以滿足總負載電流需求。

圖2：傳統(tǒng)解決方案與高級解決方案的比較

這種器件的典型功率級可在各種溫度下的全負載范圍內實現(xiàn)出色的電流檢測精度(±2%) ，并以高達3MHz的開關頻率工作（見圖2）。在極其寶貴的空間內還可以同時提供各種可配置的故障保護功能，如過流保護（OCP）、相位故障檢測和IC溫度報告，為設計人員提供了一種小而強大的解決方案，還不會影響效率或瞬態(tài)響應。

結論

當今的AI系統(tǒng)都是通過多個高性能計算機系統(tǒng)來實現(xiàn)的，它在很多方面都對電源設計人員提出了挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)中心設計正迅速從通用的僅CPU解決方案演化為CPU、GPU和TPU的組合方案，這對電源設計解決方案提出了新的、更嚴格的要求。數(shù)字控制器及其功率級解決方案帶來了靈活性和適應性，以及精確的控制、遙測和保護功能。它使電源設計人員能夠創(chuàng)建具有高效率和高功率密度的最新電源解決方案，可以滿足快速增長的AI市場當前與未來的高功率需求。

免責聲明：本文為轉載文章，轉載此文目的在于傳遞更多信息，版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題，請聯(lián)系小編進行處理。

下一代尖端AI系統(tǒng)的電源解決方案

友情鏈接(QQ：317243736)