国产精品盗摄久久久,精品久久久久久久久久,亚洲精品国产成人久久av盗摄

內容簡介

本書系統介紹了C66x多核軟件開發的知識，并基于C6678的設計實例介紹了相關設計經驗。系統介紹了C66x DSP器件的基礎概念和多核軟件設計的基礎知識，引領讀者循序漸進地掌握多核軟件設計技術。對于傳統DSP開發人員比較陌生的一些概念，如Cache、預取、數據一致性、數據依賴、死鎖等，進行了重點描述。系統介紹了C66x多核器件的存儲器、DMA傳輸、中斷等內容，并結合工作實際，介紹了多核軟件優化、多核并行設計及任務級優化經驗。后，以多普勒成像的設計實例描述了如何實現并行設計。全書共11章，內容包括C66x DSP的基本組成，如存儲器組織、DMA傳輸、中斷和異常、Cache緩存和數據一致性等，并包含CCS軟件開發環境、SYS/BIOS實時操作系統、多核并行設計、軟件設計優化等相關知識。本書的特點是由淺入深、概念齊全、實踐性強、指導性強。本書結合了多年多核軟件開發的實際經驗，對多核設計中常見的問題進行了詳細的描述；從基本概念出發，層層推進，介紹了多核并行、數據傳輸與處理并行和多層次并行設計的經驗。對于從事C66x多核軟件開發的設計師，本書具有很強的指導意義，本書還適合作為高校計算機、數據處理、信號處理、通信等相關專業的本科和研究生教材。

編輯推薦

1.本書由淺入深、概念齊全、實踐性強、指導性強，結合了多年多核軟件開發的實際經驗，對多核設計中常見的問題進行了詳細的描述。 2.本書從基本概念出發，層層推進，介紹了多核并行、數據傳輸與處理并行和多層次并行設計的經驗，是多核DSP并行軟件開發者必備的參考書。

在線預覽

第3章Cache緩存和數據一致性

與其他處理器一樣，基于C66x內核的處理器也存在內核處理能力與存儲器容量不匹配的問題。越靠近內核，存儲器的通信帶寬要求越高，但容量也就越??；越遠離內核，處理器容量越大，但帶寬也就越小。C66x處理器內核使用寄存器，其用到的存儲器從內到外依次是L1(L1P和L1D)、L2 SRAM、MSM SRAM(L3)、DDR3。如前所述，L1和L2位于C66x內核中，L3位于處理器中(C66x內核外面)，DDR3位于處理器外。為了緩解處理器內核和外部存儲器的矛盾，采用了Cache機制來實現外部數據在靠近處理器內核的存儲器中保留一份拷貝，處理器內核經常與該數據拷貝交互數據，而不是直接和外部存儲器交互數據。本章首先介紹了為什么使用Cache、Cache存儲器結構概覽、Cache基礎知識，然后對C66x的各個Cache進行了詳細介紹，并介紹了使用Cache、數據一致性、片上Debug支持和運行中改變Cache配置等內容，介紹了如何優化Cache性能和一些設計建議。3.1為什么使用Cache從DSP應用的角度，擁有一個大容量、快速的片上存儲器是非常重要的。然而，處理器性能的提升比存儲器發展的步伐更快，導致在內核與存儲器速度間出現了一個性能缺口。越靠近內核內存速度越快，但容量也就越小。Cache的機制是基于位置原理設計的，在講述Cache機制前先介紹一下位置原理。所謂位置原理，即假設如果一個存儲器位置被引用，則其相同或相鄰位置非?？赡軙芸煊直灰?。在一段時間內訪問存儲器的位置被指為時間位置，涉及相鄰存儲器的位置被指為空間位置。通過利用存儲器訪問位置原理，Cache緩存減少平均存儲器訪問時間?；谖恢迷?，在一小段時間內，通常一個程序從相同或相鄰存儲器位置重用數據。如果數據從一個慢速存儲器映射到一個快速Cache存儲器,在另一組數據替代前，盡可能經常訪問Cache中的數據以提高數據訪問效率。3.2C64x和C66x DSP之間的Cache區別對于使用過C64x內核的程序員來說，C66x內核Cache的概念與C64x內核中的相似，但也有很大不同。本節介紹C66x內核與C64x內核之間的Cache區別，主要有以下幾點。1. 存儲器尺寸和類型對于C66x器件，每個L1D和L1P在Cache之外實現SRAM。Cache的尺寸是用戶配置的，可以被設置成4KB、8KB、16KB或32KB?？捎玫腟RAM數量是器件相關的，并在器件特性數據手冊中明確。而對于C64x器件，Cache被設計成尺寸為固定的16KB。C66x器件相對于C64x器件，L2的尺寸增加了。2. 寫緩沖對于C66x器件，寫緩沖的寬度增加到128位；對于C64x器件，寬度是64位。3. Cache能力對于C66x器件，外部存儲地址的Cache能力設置(通過MAR位)只影響L1D和L2 Cache緩存；也就是說，到外部存儲器地址的程序取指令(program fetch)總是被Cache緩存進來。不管Cache能力設置狀況。這和C64x器件上的情況不一樣，在C64x器件上Cache能力設置影響所有Cache，即L1P、L1D和L2。對于C66x器件，外部存儲地址的Cache能力控制覆蓋整個外部地址空間。對于C64x器件，外部存儲地址的Cache能力控制只覆蓋地址空間的一個子集。4. Snooping協議在C66x器件上的Snooping Cache一致性協議直接發送數據到L1D Cache和DMA。C64x器件通過invalid和writeback Cache Line來維持一致性。由于減少了由invalidate導致的Cache缺失開支，C66x Snooping機制更加有效。與C64x器件一樣，Snoop協議在C66x器件中不維護L1P Cache和L2 SRAM之間的一致性，程序員負責維護其一致性。5. Cache一致性操作對于C66x器件，L2 Cache一致性操作總是操作在L1P和L1D，即使L2 Cache功能被禁用。這與C64x器件情況不同,其需要明確調用L1一致性操作。C66x器件支持一整套的區域和全局(Range and Global)L1D Cache一致性操作，而C64x器件只支持L1D區域invalidate和writebackinvalidate操作。在Cache尺寸上有改變，C66x器件在初始設置一個新尺寸前，自動writebackinvalidate Cache。而C64x器件需要執行一個完整的writebackinvalidate程序(雖然這些是被一部分CSL函數處理的)。對于C66x器件，L2 Cache不包括L1D和L1P，兩者不相關。這意味著一個行從L2驅逐(evict)，不會導致相應的行在L1P和L1D被驅逐。不相關的優勢在于：由于程序取指令導致的L2中的行分配不會從L1D Cache驅逐數據；由于數據訪問導致L2中的行分配不會從L1P驅逐程序代碼，這減少Cache緩存缺失的數量。以下介紹C66x Cache存儲器結構概覽、Cache基礎知識并詳細介紹各級Cache。3.3Cache存儲器結構概覽C66x DSP存儲器由內部兩級基于Cache的存儲器和外部存儲器組成。L1P和L1D都可以被配置成SRAM和Cache，Cache較大可以達到32KB。所有Cache和數據路徑自動被Cache控制器管理，如圖3.1所示。1級存儲器通過核訪問，不需要阻塞。2級存儲器可以被配置，并可被分成L2 SRAM和Cache。外部存儲器可以為幾MB大小。

圖3.1C66x DSP Cache概覽

C6678器件上電配置如下：復位后L1P被配置為全為Cache，大小為32KB。復位后L1D被配置為全為Cache，大小為32KB。復位后L2全是SRAM，Cache的容量可以被配置為32KB、64KB、128KB、256KB或全為Cache。訪問時間取決于接口和使用的存儲器技術。3.4Cache基礎知識通常, Cache可以分為直接映射Cache(directmapped Caches)和組相聯Cache (setassociative Caches)兩種類型。本節介紹Cache的一些基本知識。為了較好理解Cache機制，首先介紹幾個Cache的基本概念。(1) Cache Line(Cache行)： Cache處理的最小單位。Cache Line的尺寸要比內存存取的數據尺寸要大，一個行的大小為一個行尺寸(Line Size)。例如，C66x內核可以訪問單個字節，而L1P Cache行尺寸為32B，L1D Cache行尺寸為64B，L2 Cache行尺寸為128B。但是，如果發生一次讀失效，則Cache會將整條Cache Line的數據讀入。(2) Line Frame(行幀)： Cache中用于存儲Cache Line的位置，包含被Cache的數據(1行)、一個關聯的Tag地址和這一行的狀態信息。這一行的狀態信息包括是否Valid(有效)、Dirty(臟)和LRU狀態。(3) Set(集)： Line Frame的一個集合。直接映射的Cache中一個Set包含一個Line Frame，n路組相聯的Cache每個Set包含n個Line Frame。(4) Tag(標簽)： Cache中被Cache的物理地址的高位作為一個Tag存儲在Line Frame中，在決定Cache是否命中的時候，Cache控制器會查詢Tag。(5) Valid(有效)：當Cache中的一個Line Frame保存了從下一級存儲器取的數據，那么這個Line Frame的狀態就是Valid的，否則，這個Line Frame的狀態就是無效的(Valid = 0)。(6) Invalidate(失效)：是將Cache中標記為Valid的Line Frame狀態標記為無效的過程，受影響的Cache Line內容被廢棄。為了維持數據一致性，與writeback組合成writebackinvalidate，先將標記為Dirty的行寫回到保存有這個地址的下一級存儲器，再標記該行為無效狀態。(7) Dirty(臟)和Clean(干凈)：當一個Cache Line是Valid并包含更新后的數據，但還未更新到下一層更低的內存，則在Line Frame的Dirty位標志該Cache Line為臟的。一個Valid的Cache Line與下一層更低的內存一致，則Line Frame的Dirty位標志該Cache Line是Clean的(Dirty = 0)。(8) Hit(命中)和Miss(缺失)：當請求的內存地址的數據在Cache中，那么Tag匹配并且相應的Valid有效，則稱為Hit，數據直接從Cache中取給DSP。相反，如果請求的內存地址的數據不在Cache中，Tag不匹配或相應的Valid無效，則稱為Miss。(9) Victim Buffer(Victim緩沖)： Cache中的一條Cache Line為新的Line騰出空間的過程稱為驅逐(Evict)，被驅逐的Cache Line被稱為Victim(Line)。當Victim Line是Dirty的時，為了保持數據一致性，數據必須寫回到下一級存儲器中。Victim Buffer保存Vitim直到它們被寫回到下一級存儲器中。(10) Miss Pipelining(缺失流水)：對連續的缺失進行流水操作，提高對缺失處理的效率，降低阻塞(Stall)周期。(11) Touch：對一個給定地址的存儲器操作，被稱為Touch那個地址。Touch也可以指的是讀數組元素或存儲器地址的其他范圍，目的是分配它們到一個特定級別Cache中。一個內核中心循環用作Touch一個范圍的內存，是為了分配它到Cache中，經常被稱為一個Touch循環。Touch一個數組是軟件控制預取數據的一種形式。3.4.1直接映射Cache——L1P Cache直接映射Cache的工作原理可以參照C66x L1P Cache。任何時候內核訪問L2 SRAM或外部空間中的指令,指令都被調入L1P Cache。1. 讀缺失如果一個程序從地址0020h取出，假設那個Cache是無效的，意味著Cache中沒有Cache Line包含該數據的緩存，這就是一個讀缺失。一個行幀的有效狀態被Valid (V)位指示： Valid位為0表示相應的Cache Line是無效的，也就是說，不包含被Cache緩存的數據。當核請求讀地址0020h, Cache控制器把這個地址分為三塊(Tag、Set和Offset)，如圖3.2所示。

圖3.2地址分塊

Set部分(bits 13~5)指示地址映射到哪一個Set (如果是直接映射Cache,一個Set等于一個行幀)。對于地址0020h，Set部分檢測為1。然后控制器檢測Tag (bits 31~14)和Valid位。由于我們假設Valid位為0，控制器寄存器是一個缺失，也就是說被請求的地址沒有包含在Cache中。一個缺失也意味著：為了容納請求地址的行，一個行幀會被分配。然后控制器從存儲器取行(0020h~0039h)，并存數據到行幀1。地址的Tag部分存儲在Tag RAM中，Valid位變成1用以指示該Set包含有效數據。取出的數據同時也發送給核，訪問結束。一個地址的Tag部分之所以必須被存儲，這是因為當地址0020h再次被訪問時會更清楚該地址已經被Cache緩存。2. 讀命中Cache控制器把地址分割為三個部分： Tag、Set和Offset，如圖3.2所示。Set部分決定地址映射到哪一個Set；存儲的Tag部分用于與請求的地址Tag部分比較。這個比較是必要的，因為存儲器中多個行映射同一Set，通過Tag可以判斷出請求的地址是否映射到Cache中。如果訪問地址4020h也映射到同一個Set，Tag部分會不同，因而訪問會是一個缺失。如果地址0020h被訪問，Tag比較為真且Valid位為1，那么控制器寄存器為一個命中，并發送Cache Line中的數據到核，該訪問結束。3.4.2Cache缺失的類型在組相聯被討論之前,好理解不同類型的Cache缺失。Cache較大的目的是減少平均存儲器訪問時間。從存儲器到Cache取一個行幀的數據，對于每個缺失，都會有損失。因而，對于最常使用的Cache Line，在被其他行替換前，要盡可能多地重復使用。這樣一來，初始損失影響最小且平均存儲器訪問時間變得最短。Cache使用相同行幀來存儲沖突的Cache Line，替換一個行幀將導致從Cache中驅逐另一個行幀。如果后續驅逐的行幀又被訪問，那么訪問會缺失且這個行幀必須再次從低速存儲器取出。因而，只要一個行幀還會被使用，應避免它被驅逐。1. 沖突和容量缺失一個Set對應的數據已經被Cache緩沖，隨后同一個Set的其他存儲器位置被訪問，就會由于沖突導致驅逐，這個類型的缺失被稱為沖突缺失。一個沖突缺失的產生是因為一個Cache Line在它被使用前因為沖突被驅逐，更深層次的原因可能是因為Cache容量被耗盡，從而導致沖突發生。如果Cache容量被耗盡，當缺失發生時，Cache中的所有行幀被分配，這就是一個容量缺失。如果一個數據組超過重用Cache容量，容量缺失發生。當容量耗盡，新行訪問從數組開始逐步替代舊行。確認一個缺失的原因有助于選擇相應措施避免缺失。沖突缺失意味著數據訪問合乎Cache大小，但是Cache Line因為沖突被驅逐。在這種情況下，我們可能需要改變存儲器布局，以便數據訪問被分配到存儲器中Cache沒有沖突的地址中?；蛘?，從硬件設計上，我們可以創建多個Set保持兩個或更多行。因而，存儲器的兩個行映射到相同Set可以都被保持在Cache中，相互不驅逐。這就是組相聯的Cache。為了避免容量缺失，需要減少一次操作數據的數量。2. 強制性缺失第三類缺失是強制性缺失或首次引用缺失。當數據及時次傳入，在Cache中沒有該數據的緩存，因而肯定發生該類型Cache缺失。與其他兩種缺失不同，這種缺失不刻意避免，因而是強制的。3.4.3組相聯Cache組相聯Cache具有多路Cache以減少沖突缺失的可能性。C66x L1D Cache是一個2路組相聯的Cache，具有4KB、8KB、16KB或32KB容量，并且Cache行尺寸為64字節。L1D Cache的特點在表3.1中描述。表3.2提供了L1D缺失阻塞特征。

表3.1L1D Cache特點

特征C66x DSPC64x DSP組織2路組相聯2路組相聯協議讀分配Read Allocate, Writeback讀分配Read Allocate, Writeback內核訪問時間1周期1周期容量4KB、8KB、16KB或32KB16KB行尺寸64字節64字節替換策略最近經常使用(LRU)最近最少使用(LRU)寫緩沖4 × 128位4 × 64位外部存儲器容量可配置可配置

表3.2L1D缺失阻塞特征

參數L2類型0 WaitState, 2×128bit Banks1 WaitState, 4×128bit Banks

L2 SRAML2 CacheL2 SRAML2 Cache

單個讀缺失10.512.512.514.52并行讀缺失(流水)10.5 412.5 812.5 414.5 8M連續的讀缺失(流水)10.5 3×(M-1)12.5 7×(M-1)12.5 3×(M-1)14.5 7×(M-1)M連續的并行讀缺失(流水)10.5 4×(M/2-1) 3×M/212.5 8×(M/2-1) 7×M/212.5 4×(M-1)14.5 8×(M/2-1) 7×M/2在讀缺失時Victim緩沖清空破壞缺失流水較大11個周期阻塞破壞缺失流水較大11個周期阻塞破壞缺失流水較大10個周期阻塞破壞缺失流水較大10個周期阻塞

寫緩沖流出速度2周期/條目6周期/條目2周期/條目6周期/條目

與直接映射Cache相比，2路組相聯Cache的每個Set由兩個行幀組成：一個行幀在路0；另一個行幀在路1。存儲器中的一條Cache Line仍然映射一個Set，不過現在可以存入兩個行幀中的任一條。從這個意義上講，一個直接映射的Cache也可以被看成一個1路Cache。組相聯的Cache架構如圖3.3所示。與直接映射類似，除了兩個Tag比較不一樣(組相聯的Cache中多路都進行Tag比較)，Cache命中和缺失的機理相似。

圖3.3組相聯Cache架構

1. 讀缺失如果兩路都為讀缺失,數據首先從存儲器被取出。LRU(Least Recently Used)位決定Cache行幀被分配在哪一路中。每個Set有一個LRU位，可以被認為是一個開關。如果LRU位是0,行幀在路0被分配；如果LRU位是1,行幀在路1被分配。任何時候只要存在一個到該行幀的訪問，LRU的狀態位就被改變。當一路被訪問，LRU位總是切換到相反的路，為的是保護最近使用的行幀不被驅逐。基于位置原理，最近最少使用原則(LRU)被用來在同一Set里選擇一個行幀作為被驅逐的行，用于保存新的Cache數據。2. 寫缺失L1D是一個讀分配的Cache，意味著在讀缺失時一個行幀被分配到Cache。在一個寫缺失時,數據通過一個寫緩沖被寫到更低級存儲器，不會因此而產生新的L1D Cache關系。寫緩沖有4個條目(entry)，在C66x器件中每個entry是128位寬。3. 讀命中如果在路0有一個讀命中，該行幀的數據在路0被訪問；如果在路1有一個讀命中,該行幀的數據在路1被訪問。4. 寫命中在一個寫命中活動中,數據被寫到Cache，但是不是立即傳遞到更低的存儲器。這種類型的Cache被稱為寫回writeback Cache，因為數據被一個內核的寫訪問修改并且在之后被寫回到存儲器。為了寫回被修改的數據，哪一行被核寫回必須清楚。為了實現這個目的，每條Cache Line具有一個Dirty位和它相關。最初，Dirty位是0。只要核寫到一個被Cache的行，相應的Dirty位被設置。因為讀缺失沖突，當Dirty的行需要被驅逐，它會被寫回到存儲器。如果那一行沒有被修改(Clean Line)，它的內容被丟棄。例如，假設行在Set 0,路0被內核寫，LRU位指示在下一個缺失時路0將會被替換；如果內核當前產生一個到存儲器位置映射到Set 0的地址的讀訪問，當前的Dirty行首先寫回到存儲器，隨后新數據被存儲到這個行幀。一個寫回可能被程序發起，通過發送一個寫回命令到Cache控制器。3.4.4二級Cache如果在存儲器尺寸和訪問時間上，Cache和主存儲器之間有較大差別，二級Cache被引進用于減少更多存儲器訪問數量。二級Cache基本操作方式與1級Cache相同；然而, 2級Cache在容量上更大。1級和2級Cache相互作用如下：一個地址在L1缺失就傳給L2處理； L2使用相同的Valid位和Tag比較來決定被請求的地址是否在L2 Cache。L1命中直接從L1 Cache得到服務，并不需要牽涉L2 Cache。與L1P和L1D一樣，L2存儲空間可以被分成一個可尋址的內部存儲器(L2 SRAM)和一個Cache (L2 Cache)部分。與L1 Cache只有讀分配(read allocate)不一樣，L2 Cache是讀分配和寫分配(write allocate)的Cache。L2 Cache只被用來Cache緩存外部存儲器地址，然而，L1P和L1D被用于Cache緩存L2存儲器和外部存儲器地址。L2 Cache特征概述如表3.3所示。

表3.3L2 Cache特征

特征C66x DSPC64x DSP

組織方式4路組相聯4路組相聯協議讀分配和寫分配讀分配和寫分配寫回寫回容量32KB、64KB、128KB或256KB32KB、64KB、128KB或256KB行尺寸128B128B替換策略最近使用(LRU)最近最少使用(LRU)外部存儲器容量可配置可配置

1. 讀缺失和讀命中考慮一個內核讀請求的場景，即訪問可被Cache緩存的外部存儲器地址，而Cache在L1缺失(可能是L1P或L1D)。如果地址也在L2 Cache缺失，相應的行會引入L2 Cache。LRU位決定了哪路行幀被分配到其中。如果行幀包含Dirty數據，在新行被取出前，首先會寫回到外部存儲器(如果這一行的數據也包含在L1D,在L2 Cache Line被發送給外部存儲器前，首先會寫回到L2。為保持Cache一致性，這個操作是需要的)。近期分配的一行形成一個L1 Line并包含請求的地址，然后傳送給L1。L1在其Cache存儲器中存儲該行，并發送請求的數據到內核。如果在L1中新行替換一個Dirty行，它的內容首先寫回到L2。如果地址是一個L2命中，相應的行直接從L2傳到L1 Cache。2. 寫缺失和寫命中如果一個核寫請求到一個外部存儲器地址在L1D中缺失,它將被通過寫緩沖傳送給L2。如果對于這個地址L2檢測到一個缺失，相應的L2 Cache Line被從外部存儲器取出，被用內核寫操作修改并被存入分配的行幀中。LRU位決定哪路行幀用于分配給新數據。如果行幀包含Dirty數據,它會在新行取出前首先被寫回到外部存儲器。注意新行沒有存儲進L1D，因為它只是一個readallocate Cache。如果地址是一個L2命中，相應的L2 Cache Line直接更新為核寫的數據。3. 外部存儲地址Cache能力L2 SRAM地址總是Cache緩存進L1P和L1D，然而，默認狀態下，外部存儲地址在L1D和L2 Cache中，被分配為不可Cache緩存的。因此，Cache能力必須首先被用戶明確使能。注意L1P Cache是不被配置影響的，并且總是Cache緩存外部存儲器地址。如果地址是不可Cache緩存的，任何存儲器訪問(數據訪問或程序取)無須分配行到L1D或L2 Cache。3.5L1P CacheC66x內核中L1P與L1D上電后默認全為Cache，與L1D Cache不同的是L1P Cache為直接映射Cache。本節描述L1P Cache的相關知識。3.5.1L1P存儲器和CacheL1P存儲器和Cache的目的就是較大化程序執行效率。L1P Cache的可配置性為系統設計提供了靈活性。L1P Cache的特點為： L1P Cache可配置成0KB、4KB、8KB和32KB，存儲器保護可配置，Cache塊和全局一致性操作可配置。L1P存儲器支持較大128KB的RAM空間(具體參見器件配置情況)。L1P存儲器不能被同一個核內的L1D、L1P和L2 Cache緩存。L1P只能被EDMA和IDMA寫，不能被DSP存儲寫入。L1P可以被EDMA、IDMA和DSP訪問讀取。L1P存儲器較大的等待狀態為3周期，等待周期不能被軟件配置，這是由具體器件決定的。L1P存儲器等待狀態通常為0個周期。為了在一個較高的時鐘頻率取程序代碼并維持一個較大的系統空間，L1P Cache是很有必要的，并可以把部分或全部的L1P都作為Cache。從L1P存儲器地址映射的最頂端開始，采用自頂向下的順序，L1P把存儲器轉換為Cache。較高地址的L1P存儲器首先被Cache緩存。用戶可以通過寄存器控制L1P Cache的操作。表3.4列出了這些寄存器概要。

表3.4L1P Cache寄存器概要

地址縮略詞寄存器描述

0184 0020hL1PCFGL1程序配置寄存器0184 0024hL1PCCL1程序Cache控制寄存器0184 4020hL1PIBARL1程序無效基址寄存器0184 4024hL1PIWCL1程序無效計數(字)寄存器0184 5028hL1PINVL1程序無效寄存器

3.5.2L1P Cache結構L1P Cache是直接映射的Cache，意味著系統中每個物理存儲位置都在Cache中有一個可能歸屬的位置。當DSP想取一段代碼，DSP首先要檢