PUSCH 是 PDSCH 的反向過程,同樣含有下列 IQ 樣本與比特率處理:
IQ 樣本處理 —— 處理接收到的 OFDM 符號物理資源。這涉及通道估算與最大比率合并 (MRC) /多輸入、多輸出 (MIMO) 均衡,以從各個天線分離用戶數(shù)據(jù)。
比特率處理 —— 為在 L2 內(nèi)實現(xiàn)進一步處理而進行的通道解調(diào)、解多路復(fù)用、錯誤校正與解碼。
圖 2 所示為 PUSCH 的信號處理鏈:
![image002.jpg](/uploads/allimg/110829/1055295K7-1.jpg)
?
圖2 - PUSCH 信號處理鏈
分析 TMS320TCI6488 中的 LTE 物理層處理 4
TCI6487/8 是 TI 最新系列的多內(nèi)核 SoC,由三個 C64x+TM CPU 內(nèi)核構(gòu)成。采用這種 SoC 的運營商已有數(shù)百家,年出貨量數(shù)百萬片。通過分析 TCI6488 的 LTE 性能,可以深入了解如何構(gòu)建新一代的高性能 SoC。圖 3 所示為在 TCI6488 上采用 2x2 MIMO、150Mbps 下行吞吐速率及 75Mbps 上行吞吐速率時,20 MHz LTE 的周期占用數(shù)及分布。
![image003.jpg](/uploads/allimg/110829/10552aV9-2.jpg)
?
![image004.jpg](/uploads/allimg/110829/10552962E-3.jpg)
?
圖 3 - TCI6488 上的 LTE 物理層處理
從圖上可以明顯看出,F(xiàn)FT/IFFT、PDSCH 比特率處理、PUSCH 比特率處理與 PUCCH 占用了總 DSP 周期中的大部分。
為進一步改進總體系統(tǒng)性能,滿足新一代 LTE 系統(tǒng)的要求,必須設(shè)計出具備良好均衡性且可擴展的架構(gòu),以便最大限度地發(fā)揮 SoC 的多內(nèi)核計算性能。這就要求最大限度地提高系統(tǒng)的互連吞吐量,并將存儲器存取與數(shù)據(jù)傳輸時延降到最小。
通過對 LTE 要求的總處理周期進行分析,我們發(fā)現(xiàn)通過增強 DSP 內(nèi)核的信號處理能力,不僅能夠減少處理周期的總數(shù)量,而且還能增大系統(tǒng)容量、提升性能。最新推出的 C66x DSP 內(nèi)核通過將 C64x+ 的乘/累加 (MAC) 能力銳升四倍可實現(xiàn)這一目標。此外,新內(nèi)核還同時集成了定點與浮點功能,并可為矢量處理與矩陣處理提供新的指令。
如快速傅里葉變換 (FFT) 與快速傅里葉逆變換 (IFFT) 等特定函數(shù)需要在 LTE 信號鏈上的許多地方執(zhí)行,并且用于在時域與頻域之間進行數(shù)據(jù)轉(zhuǎn)換。FFT 與離散傅立葉變換 (DFT) 已屬成熟算法,因此它們有可能作為硬件加速的候選以用于釋放 CPU 周期,這樣 DSP 內(nèi)核就可用于執(zhí)行客戶差異化功能。
5
LTE 的上行與下行比特率處理及其他無線技術(shù)包含眾多標準算法,適用于調(diào)制、解調(diào)、交錯、解交錯、速率匹配、解速率匹配、加擾與去擾等運算。TI 新型比特率協(xié)處理器 (BCP) 是一種可為多種標準釋放所有比特率處理功能的加速器,它可大幅度提升系統(tǒng)容量,從而簡化軟件編程、減少系統(tǒng)時延。
這些就是可以在 TCI6616 及 TCI6618 基站 SoC 中實現(xiàn)創(chuàng)新與性能飛躍提升的系統(tǒng)優(yōu)化機會的示例。
TI KeyStone 架構(gòu)
KeyStone 多內(nèi)核 SoC 架構(gòu)是業(yè)界同類架構(gòu)中率先可提供基礎(chǔ)局端以確保所有內(nèi)核都能得到充分利用的架構(gòu)。KeyStone 可實現(xiàn)對所有處理內(nèi)核、外設(shè)、協(xié)處理器及 I/O 的非阻塞訪問??蓪崿F(xiàn)這類多內(nèi)核能力的部分 KeyStone 創(chuàng)新技術(shù)包括:多內(nèi)核導(dǎo)航器、TeraNet、多內(nèi)核共享存儲控制器 (MSMC) 及超鏈接。
TI 多內(nèi)核導(dǎo)航器是一種基于分組的創(chuàng)新型管理器,能夠在提取不同子系統(tǒng)間連接的同時,控制 8,192 個隊列。它可為實現(xiàn)通信、數(shù)據(jù)傳輸及工作管理提供統(tǒng)一接口。通過采用“一次性完成,零復(fù)制”的設(shè)計理念,多內(nèi)核導(dǎo)航器能夠以更少的中斷及更低的軟件復(fù)雜度實現(xiàn)更高的系統(tǒng)性能。
舉例來說,多內(nèi)核導(dǎo)航器能夠進行任務(wù)調(diào)度,且在無需外部管理的情況下即能指示下一個空閑 DSP 內(nèi)核讀取并處理任務(wù)。這樣通過提供下列功能,即可簡化 SoC 軟件架構(gòu),進而提升基站的性能:
動態(tài)資源/負載共享
減輕與子系統(tǒng)間通信相關(guān)的 CPU 開銷/延遲
基于硬件的任務(wù)優(yōu)先級排序
動態(tài)負載平衡
針對所有 IP 模塊(軟件、I/O 及加速器)的通用通信方法
多內(nèi)核導(dǎo)航器能夠在無 CPU 干預(yù)的情況下控制數(shù)據(jù)流,可從移動數(shù)據(jù)中釋放 CPU 周期并將片上通信速率提升至每秒 2,000 萬條消息。此外,其還能夠使用更為簡單的軟件架構(gòu)以縮短開發(fā)周期并提高資源利用率。
TeraNet 能夠提供層級交換結(jié)構(gòu),可在 SoC 內(nèi)為數(shù)據(jù)傳輸提供超過 2 Tbit 的總帶寬。這樣幾乎可確保不會出現(xiàn)內(nèi)核與協(xié)處理器沒有數(shù)據(jù)可處理的情況,從而使他們在任何需要的位置和時間都可以發(fā)揮其最大的處理功效。由于交換結(jié)構(gòu)采用了層級架構(gòu)而非扁平縱橫式結(jié)構(gòu),因此總體功耗能在空閑狀態(tài)下實現(xiàn)大幅度下降且能以最低時延實現(xiàn)高性能,從而充分滿足新一代基站的這種關(guān)鍵要求。
多內(nèi)核共享存儲控制器 (MSMC) 是一種可增強性能的獨特架構(gòu)。MSMC 可以讓內(nèi)核在不占用任何 TeraNet 帶寬的情況下直接訪問共享存儲器。MSMC 可以協(xié)調(diào)內(nèi)核及其他 IP 模塊對共享存儲器的訪問,以避免發(fā)生存儲器爭用的情況發(fā)生。DDR3 外部存儲器接口 (EMIF) 可直接連接至 MSMC,從而降低因發(fā)生外部存儲器存取而導(dǎo)致的時延,并為基站應(yīng)用提供所需的高速訪問與支持。
6
超鏈接具有 50Gbps 的總吞吐能力,是一種互連機制,能夠以極少的協(xié)議實現(xiàn)與其它 KeyStone、FPGA 及 ASIC 器件的高速通信與連接。其可為主器件上的配套器件提供透明的存儲器映射訪問,從而不僅可大幅簡化軟件編程,同時還能為 OEM 廠商提供實現(xiàn)可擴展解決方案的無縫路徑。
全新 DSP 內(nèi)核
TCI66x SoC 解決方案包含性能顯著增強的全新處理內(nèi)核。其是業(yè)界首款同時集成了定點和浮點功能的基站 DSP 內(nèi)核。增強的性能可幫助 OEM 廠商構(gòu)建極富差異化功能的軟件,從而滿足高級操作人員的要求。
TMS320C66x 內(nèi)核
作為 TI 的新一代定點及浮點 DSP,新型 C66x 內(nèi)核具備集成了 8 個功能單元和 64 個通用 32 位寄存器的高級 VLIW 架構(gòu)。全新系列器件基于 TI 前代 C64x+ 內(nèi)核架構(gòu)之上,擁有屢獲殊榮的指令集架構(gòu)和眾多功能強大的特性,如每個周期能夠執(zhí)行 8 個指令,從而可實現(xiàn)高度的并行性能。
全新的 C66x DSP 內(nèi)核實現(xiàn)眾多特性改進,其中包括:
原生浮點處理,可逐指令地與定點實現(xiàn)無縫協(xié)作。通過以業(yè)界領(lǐng)先的定點 DSP 速度提供原生浮點支持,實現(xiàn)了浮點處理領(lǐng)域的重大進步;
? ? MAC 實現(xiàn)了 4 倍的性能提升,每周期可提供 32 個 16x16 位 MAC;
專為復(fù)雜算法、線性代數(shù)和矩陣運算而精心優(yōu)化;
全流水線雙精度浮點乘法器;
減少雙精度乘法時延。
所有這些改進都能大幅提升 L1 和 L2 的總體處理性能。4G 基站解決方案具備 MIMO 和波束成形等算法,可充分利用多天線信號處理實現(xiàn)性能提升。這些算法通常需要矩陣逆轉(zhuǎn)技術(shù),從本質(zhì)上來說非常容易遭受與定點處理相關(guān)的量化及擴展問題的影響。這些多天線技術(shù)仍在不斷演進發(fā)展,具備可幫助客戶實現(xiàn)差異化功能的實施靈活性至關(guān)重要。將最新的 C66x 增強功能用于矩陣運算和浮點支持,能夠同時顯著提高系統(tǒng)的速度和準確度,從而為移動電話用戶帶來更精彩的體驗。
采用 C66x 內(nèi)核增強 MIMO 接收機
我們同時在 LTE 和 LTE-A 中采用了眾多高級接收機算法。例如,在 LTE-A 新技術(shù)中可實現(xiàn)更先進的多用戶 MIMO (MU-MIMO) 預(yù)編碼方案。此外,單用戶 MIMO (SU-MIMO) 還可支持更高的數(shù)據(jù)速率。增強型 C66x 內(nèi)核不僅可幫助設(shè)計團隊在上述領(lǐng)域?qū)崿F(xiàn)差異化特性,而且最終還能幫助他們實現(xiàn)操作人員所需的高級特性。
7
MIMO 解碼在算法上非常復(fù)雜,往往需要使用客戶 IP 來提升效率和性能。復(fù)雜度隨天線數(shù)量的增加而相應(yīng)增加。雖然大多數(shù)專家都一致認為第二種傳輸天線至少在最近幾年都不會獲得廣泛使用,但當前的系統(tǒng)仍以 2xN(2 路傳輸,N 路接收)配置為主。實施 MIMO 接收機算法的方式有很多種,其中包括較低復(fù)雜側(cè)的線性 MMSE 和較高復(fù)雜端的球狀解碼。在 OEM 廠商測試不同算法的時候,進行高效率的軟件實施使他們能夠在部署 LTE 系統(tǒng)的同時適配并測試不同的構(gòu)想方案。這種高靈活性在基礎(chǔ)局端部署的最初幾年非常關(guān)鍵,直到新的網(wǎng)絡(luò)落實,工程師才能更好地理解問題所在。
C66x 架構(gòu)具備擴展指令集,可用于加速 DSP 內(nèi)核的 MIMO 處理。浮點可以實現(xiàn)高效的矩陣反轉(zhuǎn)算法,從而較定點實施相比能夠?qū)崿F(xiàn)更高的性能,而且與硬件加速相比能夠?qū)崿F(xiàn)更高的靈活性。通過充分發(fā)揮浮點功能和 4 倍的 MAC 性能改進,C66x DSP 內(nèi)核中的 MIMO 處理量與前代 DSP 相比降低了 5 倍。
全新的加速功能
通過分析 LTE 和 WCDMA 系統(tǒng)要求,我們已確定了一些需要改進的功能,并按重要性進行如下排序:
FFT/IFFT/DFT
下行鏈路比特率處理
上行鏈路比特率處理
上行鏈路控制通道接收機
MIMO 接收機
WCDMA 傳輸碼片率 IQ 采樣處理 (TAC)
? ?WCDMA 接收碼片率 IQ 采樣處理 (RAC)
此外,4G 較高的數(shù)據(jù)速率和高速 3G 系統(tǒng)都需要大量的改進才能完成 turbo 解碼功能。
評論