天博娱乐场官网好玩吗,实况足球2014 下载,六合彩坛6cct.net(中国)·官方网站

Shared Memory

共享內存是使用__shared__內存空間說明符分配的 。

共享內存預期要比全局內存快得多 。 它可以用作臨時存儲器(或軟件管理緩存)，以最小化來自CUDA block 的全局內存訪問 ，如下面的矩陣乘法示例所示。

下面的代碼示例是一個簡單的矩陣乘法實現，它不利用共享內存。每個線程讀取A的一行和B的一列，并計算C的相應元素，如圖1所示。因此， A從全局內存中讀取B的width次數，B從全局內存中讀取A的height次數 。

從左到右是x的方向，從上到下是y的方向。 (x,y) x是0-dim，y是1-dim，和正常的 shape 表示是反著的。

圖1 Matrix Multiplication without Shared Memory

// Matrices are stored in row-major order:
// M(row, col) = *(M.elements + row * M.width + col)
typedef struct {
    int width;
    int height;
    float* elements;
} Matrix;

// Thread block size
#define BLOCK_SIZE 16

// Forward declaration of the matrix multiplication kernel
__global__ void MatMulKernel(const Matrix, const Matrix, Matrix);

// Matrix multiplication - Host code
// Matrix dimensions are assumed to be multiples of BLOCK_SIZE
void MatMul(const Matrix A, const Matrix B, Matrix C)
{
    // Load A and B to device memory
    Matrix d_A;
    d_A.width = A.width; d_A.height = A.height;
    size_t size = A.width * A.height * sizeof(float);
    cudaMalloc(&d_A.elements, size);
    cudaMemcpy(d_A.elements, A.elements, size,
               cudaMemcpyHostToDevice);
    Matrix d_B;
    d_B.width = B.width; d_B.height = B.height;
    size = B.width * B.height * sizeof(float);
    cudaMalloc(&d_B.elements, size);
    cudaMemcpy(d_B.elements, B.elements, size,
               cudaMemcpyHostToDevice);

    // Allocate C in device memory
    Matrix d_C;
    d_C.width = C.width; d_C.height = C.height;
    size = C.width * C.height * sizeof(float);
    cudaMalloc(&d_C.elements, size);

    // Invoke kernel
    dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE);
    dim3 dimGrid(B.width / dimBlock.x, A.height / dimBlock.y);
    MatMulKernel<<

下面的代碼示例是一個利用共享內存的矩陣乘法的實現。在這個實現中， 每個線程塊負責計算C的一個方陣子矩陣Csub，塊中的每個線程負責計算Csub中的一個元素 。如圖2所示， Csub等于兩個矩形矩陣的乘積:一個是與Csub具有相同行索引的維數(A.width, block_size)的子矩陣，另一個是與Csub具有相同列索引的維數(block_size, A.width)的子矩陣。為了適應設備的資源，這兩個矩形矩陣根據需要被分成多個尺寸為block_size的方陣，Csub被計算為這些方陣乘積的和。每一個乘積都是這樣執行的:首先將兩個對應的方陣從全局內存加載到共享內存，由一個線程加載每個矩陣的一個元素，然后讓每個線程計算乘積的一個元素。每個線程將每個產品的結果累積到一個寄存器中，并將結果寫入全局內存。

圖2 Matrix Multiplication with Shared Memory

通過這種方式阻塞計算，我們利用了快速共享內存的優勢，并節省了大量全局內存帶寬， 因為A只從全局內存讀取(B.width / block_size)次，而B是讀取(a.height / block_size)次 。

前面代碼示例中的Matrix類型使用stride字段進行了擴充，以便子矩陣可以有效地用相同的類型表示 。__device__函數用于獲取和設置元素，并從矩陣中構建任何子矩陣。

// Matrices are stored in row-major order:
// M(row, col) = *(M.elements + row * M.stride + col)
typedef struct {
    int width;
    int height;
    int stride; 
    float* elements;
} Matrix;

// Get a matrix element
__device__ float GetElement(const Matrix A, int row, int col)
{
    return A.elements[row * A.stride + col];
}

// Set a matrix element
__device__ void SetElement(Matrix A, int row, int col,
                           float value)
{
    A.elements[row * A.stride + col] = value;
}

// Get the BLOCK_SIZExBLOCK_SIZE sub-matrix Asub of A that is
// located col sub-matrices to the right and row sub-matrices down
// from the upper-left corner of A
 __device__ Matrix GetSubMatrix(Matrix A, int row, int col) 
{
    Matrix Asub;
    Asub.width    = BLOCK_SIZE;
    Asub.height   = BLOCK_SIZE;
    Asub.stride   = A.stride;
    Asub.elements = &A.elements[A.stride * BLOCK_SIZE * row
                                         + BLOCK_SIZE * col];
    return Asub;
}

// Thread block size
#define BLOCK_SIZE 16

// Forward declaration of the matrix multiplication kernel
__global__ void MatMulKernel(const Matrix, const Matrix, Matrix);

// Matrix multiplication - Host code
// Matrix dimensions are assumed to be multiples of BLOCK_SIZE
void MatMul(const Matrix A, const Matrix B, Matrix C)
{
    // Load A and B to device memory
    Matrix d_A;
    d_A.width = d_A.stride = A.width; d_A.height = A.height;
    size_t size = A.width * A.height * sizeof(float);
    cudaMalloc(&d_A.elements, size);
    cudaMemcpy(d_A.elements, A.elements, size,
               cudaMemcpyHostToDevice);
    Matrix d_B;
    d_B.width = d_B.stride = B.width; d_B.height = B.height;
    size = B.width * B.height * sizeof(float);
    cudaMalloc(&d_B.elements, size);
    cudaMemcpy(d_B.elements, B.elements, size,
    cudaMemcpyHostToDevice);

    // Allocate C in device memory
    Matrix d_C;
    d_C.width = d_C.stride = C.width; d_C.height = C.height;
    size = C.width * C.height * sizeof(float);
    cudaMalloc(&d_C.elements, size);

    // Invoke kernel
    dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE);
    dim3 dimGrid(B.width / dimBlock.x, A.height / dimBlock.y);
    MatMulKernel<<

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

寄存器

寄存器

+關注

關注
31

文章
5363

瀏覽量
121162
存儲器

存儲器

+關注

關注
38

文章
7528

瀏覽量
164343
CUDA

CUDA

+關注

關注
0

文章
121

瀏覽量
13686

內存共享原理解析

內存共享是一種在多個進程之間共享數據的機制，它允許不同的進程直接訪問同一塊內存區域，從而實現數據的快速傳遞和通信。

發表于 02-19 15:11 ?1402次閱讀

<b class='flag-5'>內存</b><b class='flag-5'>共享</b>原理解析

CUDA編程教程

Nvidia CUDA 2.0編程教程

發表于 03-05 07:30

cuda程序設計

　　•GPGPU及CUDA介紹　　•CUDA編程模型　　•多線程及存儲器硬件

發表于 11-12 16:12 ?0次下載

共享內存IPC原理,Linux進程間如何共享內存？

共享內存是在內存中單獨開辟的一段內存空間，這段內存空間有自己特有的數據結構，包括訪問權限、大小和最近訪問的時間等。該數據結構定義如下

發表于 07-16 13:43 ?8687次閱讀

<b class='flag-5'>共享</b><b class='flag-5'>內存</b>IPC原理,Linux進程間如何<b class='flag-5'>共享</b><b class='flag-5'>內存</b>？

CUDA 6中的統一內存模型

的，并通過PCI-Express總線相連。在CUDA6之前，這是程序員最需要注意的地方。CPU和GPU之間共享的數據必須在兩個內存中都分配，并由程序直接地在兩個內存之間來回復制。這給

發表于 07-02 14:08 ?2858次閱讀

深入剖析Linux共享內存原理

不同進程之間進行通信，需要讓不同進程共享相同的物理內存，Linux通過? 共享內存 ?來實現這個功能。下面先來介紹一下Linux系統的共享

發表于 10-30 09:52 ?2350次閱讀

深入剖析Linux<b class='flag-5'>共享</b><b class='flag-5'>內存</b>原理

通過使用CUDA GPU共享內存

共享內存是編寫優化良好的 CUDA 代碼的一個強大功能。共享內存的訪問比全局內存訪問快得多，因為

發表于 04-11 10:03 ?7512次閱讀

CUDA簡介: CUDA編程模型概述

在 CUDA 編程模型中，線程是進行計算或內存操作的最低抽象級別。從基于 NVIDIA Ampere GPU 架構的設備開始，CUDA 編程

發表于 04-20 17:16 ?3053次閱讀

CUDA編程模型的統一內存

　　內存空間的統一意味著主機和設備之間不再需要顯式內存傳輸。在托管內存空間中創建的任何分配都會自動遷移到需要的位置。

發表于 05-07 14:47 ?1337次閱讀

Linux系統的共享內存的使用

但有時候為了讓不同進程之間進行通信，需要讓不同進程共享相同的物理內存，Linux通過共享內存來實現這個功能。下面先來介紹一下Linux系統的共享

發表于 11-14 11:55 ?1366次閱讀

使用CUDA進行編程的要求有哪些

CUDA是NVIDIA的一種用于GPU編程的技術，CUDA核心是GPU上的一組小型計算單元，它們可以同時執行大量的計算任務。

發表于 01-08 09:20 ?2592次閱讀

介紹CUDA編程模型及CUDA線程體系

CUDA 編程模型主要有三個關鍵抽象：層級的線程組，共享內存和柵同步（barrier synchronization）。

發表于 05-19 11:32 ?1988次閱讀

CUDA編程分布式共享內存

計算能力9.0中引入的線程塊集群為線程塊集群中的線程提供了訪問集群中所有參與線程塊的共享內存的能力。

發表于 05-19 15:35 ?1331次閱讀

Linux進程間如何實現共享內存通信

在上面的例程中，我們首先使用ftok()函數生成一個key值作為共享內存的標識符。然后使用shmget()函數創建共享內存區域，shmaddr指向共

發表于 06-19 09:55 ?660次閱讀

CUDA核心是什么？CUDA核心的工作原理

CUDA核心（Compute Unified Device Architecture Core）是NVIDIA圖形處理器（GPU）上的計算單元，用于執行并行計算任務。每個CUDA核心可以執行單個線程的指令，包括算術運算、邏輯操作和內存

發表于 09-27 09:38 ?9207次閱讀

那曲檬骨新材料有限公司

搜索歷史

CUDA編程共享內存

Shared Memory

評論

內存共享原理解析

CUDA編程教程

cuda程序設計

共享內存IPC原理,Linux進程間如何共享內存？

CUDA 6中的統一內存模型

深入剖析Linux共享內存原理

通過使用CUDA GPU共享內存

CUDA簡介: CUDA編程模型概述

CUDA編程模型的統一內存

Linux系統的共享內存的使用

使用CUDA進行編程的要求有哪些

介紹CUDA編程模型及CUDA線程體系

CUDA編程分布式共享內存

Linux進程間如何實現共享內存通信

CUDA核心是什么？CUDA核心的工作原理