导读 关于cuda官网下载,cuda9.0下载这个很多人还不知道,今天源源来为大家解答以上的问题,现在让我们一起来看看吧!

关于cuda官网下载,cuda9.0下载这个很多人还不知道,今天源源来为大家解答以上的问题,现在让我们一起来看看吧!

cuda官网下载(cuda90下载)cuda官网下载(cuda90下载)


1、步骤如下:1.下载安装CUDA:1.1 下载。

2、请到 cuda官网,选择合适的版本。

3、如果版本不合适,安装的时候会提示的,但还是下载最新的比较好;1.2 安装。

4、双击cuda_7.5.18_win10.exe,一步步来就好。

5、2.VS2013配置和测试2.1 重启计算机。

6、关于是否添加环境变量,笔者安装的时候系统已自动添加好对应的环境变量,如果没有,请查看上文链接的博文;2.2 配置VS。

7、也请参考上述博文,不再赘述。

8、3.测试上两个测试文件。

9、3.11 #include2 #include "cuda_runtime.h"3 #include "device_launch_parameters.h"4 bool InitCUDA()5 {6 int count;7 cudaGetDeviceCount(&count);8 if(count == 0)9 {10 fprintf(stderr, "There is no device.\n");11 return false;12 }13 int i;14 for(i = 0; i 15 {16 cudaDeviceProp prop;17 if(cudaGetDeviceProperties(&prop, i) == cudaSuccess)18 {19 if(prop.major >= 1)20 {21 break;22 }23 }24 }25 if(i == count)26 {27 fprintf(stderr, "There is no device supporting CUDA 1.x.\n");28 return false;29 }30 cudaSetDevice(i);31 return true;32 }3334 int main()35 {36 if(!InitCUDA())37 {38 return 0;39 }40 printf("HelloWorld, CUDA has been initialized.\n");41 return 0;42 }3.21 // CUDA runtime 库 + CUBLAS 库2 #include "cuda_runtime.h"3 #include "cublas_v2.h"45 #include 6 #include 78 using namespace std;910 // 定义测试矩阵的维度11 int const M = 5;12 int const N = 10;1314 int main()15 {16 // 定义状态变量17 cublasStatus_t status;1819 // 在 内存 中为将要计算的矩阵开辟空间20 float *h_A = (float*)malloc (N*M*sizeof(float));21 float *h_B = (float*)malloc (N*M*sizeof(float));2223 // 在 内存 中为将要存放运算结果的矩阵开辟空间24 float *h_C = (float*)malloc (M*M*sizeof(float));2526 // 为待运算矩阵的元素赋予 0-10 范围内的随机数27 for (int i=0; i28 h_A[i] = (float)(rand()%10+1);29 h_B[i] = (float)(rand()%10+1);3031 }3233 // 打印待测试的矩阵34 cout 35 for (int i=0; i36 cout 37 if ((i+1)%N == 0) cout 38 }39 cout 40 cout 41 for (int i=0; i42 cout 43 if ((i+1)%M == 0) cout 44 }45 cout 4647 /*48 ** GPU 计算矩阵相乘49 */5051 // 创建并初始化 CUBLAS 库对象52 cublasHandle_t handle;53 status = cublasCreate(&handle);5455 if (status != CUBLAS_STATUS_SUCCESS)56 {57 if (status == CUBLAS_STATUS_NOT_INITIALIZED) {58 cout 59 }60 getchar ();61 return EXIT_FAILURE;62 }6364 float *d_A, *d_B, *d_C;65 // 在 显存 中为将要计算的矩阵开辟空间66 cudaMalloc (67 (void**)&d_A, // 指向开辟的空间的指针68 N*M * sizeof(float) //需要开辟空间的字节数69 );70 cudaMalloc (71 (void**)&d_B,72 N*M * sizeof(float)73 );7475 // 在 显存 中为将要存放运算结果的矩阵开辟空间76 cudaMalloc (77 (void**)&d_C,78 M*M * sizeof(float)79 );8081 // 将矩阵数据传递进 显存 中已经开辟好了的空间82 cublasSetVector (83 N*M, // 要存入显存的元素个数84 sizeof(float), // 每个元素大小85 h_A, // 主机端起始地址86 1, // 连续元素之间的存储间隔87 d_A, // GPU 端起始地址88 1 // 连续元素之间的存储间隔89 );90 cublasSetVector (91 N*M,92 sizeof(float),93 h_B,94 1,95 d_B,96 197 );9899 // 同步函数100 cudaThreadSynchronize();101102 // 传递进矩阵相乘函数中的参数,具体含义请参考函数手册。

10、103 float a=1; float b=0;104 // 矩阵相乘。

11、该函数必然将数组解析成列优先数组105 cublasSgemm (106 handle, // blas 库对象107 CUBLAS_OP_T, // 矩阵 A 属性参数108 CUBLAS_OP_T, // 矩阵 B 属性参数109 M, // A, C 的行数110 M, // B, C 的列数111 N, // A 的列数和 B 的行数112 &a, // 运算式的 α 值113 d_A, // A 在显存中的地址114 N, // lda115 d_B, // B 在显存中的地址116 M, // ldb117 &b, // 运算式的 β 值118 d_C, // C 在显存中的地址(结果矩阵)119 M // ldc120 );121122 // 同步函数123 cudaThreadSynchronize();124125 // 从 显存 中取出运算结果至 内存中去126 cublasGetVector (127 M*M, // 要取出元素的个数128 sizeof(float), // 每个元素大小129 d_C, // GPU 端起始地址130 1, // 连续元素之间的存储间隔131 h_C, // 主机端起始地址132 1 // 连续元素之间的存储间隔133 );134135 // 打印运算结果136 cout 137138 for (int i=0;i139 cout 140 if ((i+1)%M == 0) cout 141 }142143 // 清理掉使用过的内存144 free (h_A);145 free (h_B);146 free (h_C);147 cudaFree (d_A);148 cudaFree (d_B);149 cudaFree (d_C);150151 // 释放 CUBLAS 库对象152 cublasDestroy (handle);153154 getchar();155156 return 0;157 }。

本文到这结束,希望上面文章对大家有所帮助。