C++를 사용한 GPU 프로그래밍

Gpu Programming With C



이 가이드에서 우리는 C++를 사용한 GPU 프로그래밍의 힘을 탐구할 것입니다. 개발자는 C++로 놀라운 성능을 기대할 수 있으며 저급 언어로 GPU의 경이적인 성능에 액세스하면 현재 사용 가능한 가장 빠른 계산을 얻을 수 있습니다.

요구 사항

최신 버전의 Linux를 실행할 수 있는 모든 시스템이 C++ 컴파일러를 지원할 수 있지만 이 연습을 수행하려면 NVIDIA 기반 GPU가 필요합니다. GPU가 없는 경우 Amazon Web Services 또는 선택한 다른 클라우드 공급자에서 GPU 기반 인스턴스를 가동할 수 있습니다.







물리적 시스템을 선택하는 경우 NVIDIA 독점 드라이버가 설치되어 있는지 확인하십시오. 이에 대한 지침은 다음에서 찾을 수 있습니다. https://linuxhint.com/install-nvidia-drivers-linux/



드라이버 외에도 CUDA 툴킷이 필요합니다. 이 예에서는 Ubuntu 16.04 LTS를 사용하지만 다음 URL에서 대부분의 주요 배포판에 사용할 수 있는 다운로드가 있습니다. https://developer.nvidia.com/cuda-downloads



Ubuntu의 경우 .deb 기반 다운로드를 선택합니다. 다운로드한 파일에는 기본적으로 .deb 확장자가 없으므로 끝에 .deb가 있도록 이름을 바꾸는 것이 좋습니다. 그런 다음 다음을 사용하여 설치할 수 있습니다.





수도 dpkg -NS패키지 이름.deb

GPG 키를 설치하라는 메시지가 표시될 수 있으며, 설치하는 경우 제공된 지침을 따르십시오.

완료했으면 저장소를 업데이트하십시오.



수도 apt-get 업데이트
수도 apt-get 설치기적-그리고

완료되면 모든 것이 제대로 로드되었는지 확인하기 위해 재부팅하는 것이 좋습니다.

GPU 개발의 이점

CPU는 다양한 입력 및 출력을 처리하고 다양한 프로그램 요구 사항을 처리할 뿐만 아니라 다양한 하드웨어 구성을 관리하기 위한 다양한 기능을 포함합니다. 또한 메모리, 캐싱, 시스템 버스, 분할 및 IO 기능을 처리하여 모든 거래의 잭이 됩니다.

GPU는 그 반대입니다. GPU에는 매우 간단한 수학적 기능에 중점을 둔 많은 개별 프로세서가 포함되어 있습니다. 이 때문에 CPU보다 몇 배나 빠르게 작업을 처리합니다. 스칼라 함수(하나 이상의 입력을 취하지만 단일 출력만 반환하는 함수)를 전문화함으로써 극도의 전문화를 희생하면서 극한의 성능을 달성합니다.

예제 코드

예제 코드에서는 벡터를 함께 추가합니다. 속도 비교를 위해 코드의 CPU 및 GPU 버전을 추가했습니다.
GPU-example.cpp 아래 내용:

#include 'cuda_runtime.h'
#포함하다
#포함하다
#포함하다
#포함하다
#포함하다

형식 정의시간::크로노::고해상도 시계시계;

#정의 ITER 65535

// 벡터 add 함수의 CPU 버전
무효의vector_add_cpu(정수 *에게,정수 *NS,정수 *씨,정수N) {
정수NS;

// 벡터 요소 a와 b를 벡터 c에 추가
~을위한 (NS= 0;NS<N; ++NS) {
[NS] =에게[NS] +NS[NS];
}
}

// 벡터 add 함수의 GPU 버전
__글로벌__무효의vector_add_gpu(정수 *GPU_a,정수 *GPU_b,정수 *GPU_c,정수N) {
정수NS=스레드 IDx.NS;
// CUDA 런타임 때문에 for 루프가 필요하지 않습니다.
// 이 ITER 시간을 스레드합니다.
GPU_c[NS] =GPU_a[NS] +GPU_b[NS];
}

정수기본() {

정수 *에게,*NS,*;
정수 *GPU_a,*GPU_b,*GPU_c;

에게= (정수 *)말록(ITER* 크기(정수));
NS= (정수 *)말록(ITER* 크기(정수));
= (정수 *)말록(ITER* 크기(정수));

// GPU에 접근할 수 있는 변수가 필요합니다.
// 그래서 cudaMallocManaged는 다음을 제공합니다.
cudaMalloc관리(&GPU_a, ITER* 크기(정수));
cudaMalloc관리(&gpu_b, ITER* 크기(정수));
cudaMalloc관리(&GPU_c, ITER* 크기(정수));

~을위한 (정수NS= 0;NS<ITER; ++NS) {
에게[NS] =NS;
NS[NS] =NS;
[NS] =NS;
}

// CPU 함수를 호출하고 시간을 잰다.
자동cpu_start=시계::지금();
vector_add_cpu(a, b, c, ITER);
자동cpu_end=시계::지금();
시간::비용 << '벡터_add_cpu:'
<<시간::크로노::지속시간_캐스트<시간::크로노::나노초>(cpu_end-cpu_start).세다()
<< ' 나노초.N';

// GPU 함수를 호출하고 시간을 잰다.
// 트리플 앵글 브레이크는 다음을 허용하는 CUDA 런타임 확장입니다.
// 전달할 CUDA 커널 호출의 매개변수.
// 이 예제에서는 ITER 스레드가 있는 하나의 스레드 블록을 전달합니다.
자동GPU_start=시계::지금();
vector_add_gpu<<<1, ITER>>> (gpu_a, gpu_b, gpu_c, ITER);
cuda장치동기화();
자동GPU_end=시계::지금();
시간::비용 << '벡터_추가_gpu:'
<<시간::크로노::지속시간_캐스트<시간::크로노::나노초>(GPU_end-GPU_start).세다()
<< ' 나노초.N';

// GPU 기능 기반 메모리 할당 해제
쿠다프리(에게);
쿠다프리(NS);
쿠다프리();

// CPU 기능 기반 메모리 할당 해제
무료(에게);
무료(NS);
무료();

반품 0;
}

메이크파일 아래 내용:

주식회사=-나/usr/현지의/기적/포함하다
NVCC=/usr/현지의/기적/오전/nvcc
NVCC_OPT=-std=C++열하나

모두:
$(NVCC)$(NVCC_OPT)GPU-example.cpp-또는GPU 예제

깨끗한:
-NS -NSGPU 예제

예제를 실행하려면 다음과 같이 컴파일하십시오.

만들다

그런 다음 프로그램을 실행합니다.

./GPU 예제

보시다시피 CPU 버전(vector_add_cpu)은 GPU 버전(vector_add_gpu)보다 상당히 느리게 실행됩니다.

그렇지 않은 경우 gpu-example.cu의 ITER 정의를 더 높은 숫자로 조정해야 할 수 있습니다. 이는 GPU 설정 시간이 CPU를 많이 사용하는 작은 루프보다 길기 때문입니다. 65535가 내 컴퓨터에서 잘 작동하는 것을 찾았지만 마일리지는 다를 수 있습니다. 그러나 이 임계값을 지우면 GPU가 CPU보다 훨씬 빠릅니다.

결론

C++를 사용한 GPU 프로그래밍 소개에서 많은 것을 배웠기를 바랍니다. 위의 예는 많은 것을 성취하지 못하지만, 시연된 개념은 GPU의 성능을 최대한 활용하기 위해 아이디어를 통합하는 데 사용할 수 있는 프레임워크를 제공합니다.