상단여백
HOME 뉴스·정책
엔비디아 파스칼 아키텍처…달라진 5가지 포인트




엔비디아가 자사 GPU 개발자 컨퍼런스인 GTC 2016 기간 중 차세대 GPU 아키텍처인 파스칼(Pascal)을 기반으로 한 GPU 칩인 GP100을 공식 발표했다. GP100을 채택한 첫 제품은 GP100을 적용한테슬라 P100이다.

엔비디아가 강조하는 GP100의 5가지 포인트는 파스칼 아키텍처와 16nm 핀펫(FinFET) 제조공정, HBM2 메모리 기술과 프로세서간 연결을 위한 인터페이스인 NV링크(NVLink), AI 알고리즘이다.

GP100의 가장 큰 특징 가운데 하나는 역시 GPU 마이크로 아키텍처를 바꿨다는 것. 제조공정 역시 기존 28nm에서 16nm 핀펫으로 미세화했다. 그렇다면 여기에서 오는 장점은 뭘까. 일단 트랜지스터 집적수. 이전 맥스웰이 최대 80억 개였던 데 비해 153억 개까지 끌어올렸다.





또 다른 장점은 동작 클록을 높일 수 있다는 것이다. 클록 속도를 높이려면 저전력이 필수인데 제조공정을 미세화하면 저전력을 확보할 수 있다. GP100은 누수전류를 억제해 전력 효율을 끌어올렸고 이에 따라 당연히 전력당 성능도 높아졌다. 앞서 밝혔듯 동작 클록 역시 기존 맥스웰은 1,114MHz였지만 파스칼은 1,480MHz까지 끌어올렸다. 제조공정 미세화와 이에 따른 전력 효율 향상이 클록 상승으로 이어진 것이다. 그 뿐 아니라 트랜지스터 수가 크게 늘면서 연산 성능이 좋아진 건 물론이다.

SM(Streaming Multiprocessor) 수도 늘렸다. SM은 쉽게 생각하면 연산을 위한 핵심 역할을 하는 것으로 연산 최소 단위라고 생각하면 된다. SM 1개는 쿠다코어 몇 개를 묶어서 구성한다. GP100에 있는 SM은 56개다. 기존 맥스웰(GM200 기준)의 경우 SM 수는 24개였다.





다만 파스칼의 경우 기존 맥스웰과 비교하면 SM을 구성하는 요소에는 차이가 있다. 일단 핵심 격인 쿠다 코어는 기존 맥스웰은 128개였지만 GP100은 64개다. 이에따라 쿠다코어 전체 수는 3,584개다. SM당 쿠다 코어 개수를 줄인 이유는 로우레벨 코딩을 프로그래밍할 때 딥러닝에 가장 좋기 때문이라고 한다.

또 GP100은 레지스터를 늘리는 걸 택했다. 맥스웰은 1.5MB였지만 GP100은 14MB다. 그렇다면 레지스터가 많아서 좋을 일은 뭘까. 당연하지만 빠른 데이터 처리다. CPU와 마찬가지로 GPU 역시 내부에 처리를 위한 레지스터를 갖추고 있다. 레지스터는 데이터나 처리중인 내용을 잠시 기억해 두는 고속 전용 영역이다. L2 캐시나 메모리보다 더 빠른 건 물론.

GP100이 빠른 처리 속도를 확보했더라도 이에 걸맞은 레지스터를 확보하지 않으면 병목현상이 일어날 수밖에 없다. GP100이 레지스터 수를 늘린 이유다. GPU 연산 코어의 효율을 크게 높여주는 요인인 것이다. 물론 GP100은 L2 캐시도 기존 맥스웰이 3MB였던 데 비해 4MB로 늘렸다.





GP100은 메모리도 HBM(High Bandwidth Memory)2를 지원, 720GB/sec에 달하는 광대역을 확보했다. HBM2는 CoWoS(Chip-on-Wafer-on-Substrate), 그러니까 메모리를 적층하는 기술을 적용했다. GP100은 메모리를 4층으로 쌓아올렸다. GP100 코어 주변에는 메모리 컨트롤러 유닛 8개가 있다. 이는 적층한 HBM2 모듈 4개당 메모리 컨트롤러를 2개씩 연결한 것이다. 메모리 컨트롤러마다 메모리는 512비트로 제어한다. 2개를 묶어 1,024비트가 되는 것. 기존 맥스웰이 384비트였다는 점을 감안하면 훨씬 여유 있는 대역폭을 확보했다고 할 수 있다. 더구나 맥스웰은 GDDR5를 이용해 288GB/sec였지만 GP100은 CoWoS 기술을 적용해 720GB/sec로 데이터 이동 속도가 훨씬 빠르다.





GP100은 GPU끼리 연결하는 인터페이스로 NV링크(NVlink)를 이용한다. NV링크는 양방향 40GB/sec로 GPU를 서로 연결해준다. NV링크를 적용한 장점은 GP100이 이전보다 쾌적한 GPU 확장성을 누릴 수 있게 해준다는 것이다. 실제로 첫 모델로 나온 테슬라 P100은 NV링크 4개를 이용해 GPU 4개를 연결할 수 있다. GP100은 이렇게 GPU 성능 뿐 아니라 인터페이스 개선을 통해 멀티 GPU 구성을 할 수 있게 했다. 물론 NV링크를 지원하는 IBM이나 오픈파워 진영의 CPU와도 GPU를 연결할 수 있다.





GP100의 실질적 가치는 부동소수점 연산 성능에서 엿볼 수 있다. GP100의 32비트 부동소수점 연산 성능은 10.6TFLOPS다. 기존 맥스웰보다 1.5배 가량 높아졌을 뿐이다. 하지만 맥스웰의 취약했던 64비트 부동소수점 연산도 지원하며 5.3TFLOPS다. 그 뿐 아니라 16비트 부동소수점 연산의 경우에는 21.1TFLOPS에 달한다. 지금까지 나온 GPU와는 다른 부분을 강화한 것이다. 이전 GPU와 단순 비교할 수 없는 이유다.

일반적으로 많이 쓰이는 32비트 부동소수점 연산 뿐 아니라 오일이나 가스 같은 분야에서 활용하는 64비트나 딥러닝 연산에 중요한 16비트 부동소수점 연산 성능을 높인 것. 이런 효과는 엔비디아가 GP100으로 구성한 세계 첫 딥러닝 슈퍼컴퓨터를 표방한 DGX-1의 성능으로도 확인할 수 있다. DGX-1을 이용하면 듀얼제온 CPU 서버로 150시간 걸렸던 알렉스넷 딥러닝 훈련을 2시간으로 줄일 수 있다고 한다.





GP100은 이런 점에서 엔비디아가 이전에 선보였던 맥스웰이나 케플러보다 훨씬 혁신의 폭이 높은 제품이라고 할 수 있다. 그 뿐 아니라 빨라진 GPU 아키텍처 구조에 걸맞게 레지스터나 L2 캐시 확대, HBM2 광대역 메모리와 NV링크를 이용한 CPU와 GPU간 혹은 멀티 GPU 확장성을 확보할 수 있게 됐다. 빠른 속도에 걸맞게 병목현상 없도록 주변 도로를 모두 확장공사한 셈이다.

이런 점에서 본다면 차기 모델인 볼타(Volta)와의 연결 고리가 되어줄 만한 요소를 갖추고 있다고 할 수 있다. 동시에 딥러닝에서의 실질적 성능 향상을 꾀할 수 있는 GPU가 등장, 이 시장에 필요한 GPU에 대한 방향성을 제시하고 있다고 할 수 있다.

이석원 기자  lswcap@techholic.co.kr

<저작권자 © 테크홀릭, 무단 전재 및 재배포 금지>

이석원 기자의 다른기사 보기
인기기사
추천기사
기사 댓글 0
전체보기
첫번째 댓글을 남겨주세요.
여백
여백
재미있는 테크월드 세상
여백
여백
여백
여백
여백
여백
여백
Back to Top