블랙웰 NVL72 출시 1년 이상 지연... 내년 상반기 말 예상
엔비디아 3세대 AI GPU 블랙웰(Blackwell)이 '과열'이라는 또 다른 문제에 직면했다. 테크 전문지 디인포메이션(The Information)은 지난 8월 GB200의 설계 결함을 보도한 뒤 11월 17일 서버랙 NVL72의 과열 문제제 제기했다.
지난 3월 GTC2024에서 NVL72가 공개되고 몇 달이 채 지나지 않아 담당 엔지니어들이 NVL72에 과열이 발생해 성능이 저하된다는 사실을 발견했다. NVL72는 GPU간 고속통신 인터페이스 장치 'NV링크'로 연결된 72대의 슈퍼칩(GPU+CPU) GB200을 탑재한 서버랙이다.
고성능 프로세서 수십대가 한 공간에 밀집되면 상당한 열이 발생한다. GB200은 하나당 1000와트(1kW) 전력을 소비하며, NVL72는 약 120kW에 달한다. 이는 미국 가정주택 약 40곳에 전력을 공급할 수 있는 수준이다.
엔비디아는 2세대 호퍼(Hooper) 기반 NVL36부터 고열을 잡기 위해 냉각 시스템을 공랭식에서 수랭식으로 전환했다. GPU와 CPU 등 칩에 직접 냉각판을 연결한 직접액체냉각(DLC)이 NVL의 표준 시스템으로 자리잡았다. 문제는 현존하는 가장 효율적인 방식인 DLC도 NVL 과열을 해결하지 못했다는 것이다.
디인포메이션에 따르면 엔비디아는 서버랙 OEM 업체에 NVL72 과열을 해결하도록 설계 변경을 여러 차례 요청한 것으로 알려졌다. 엔비디아는 출시 전에 서버랙 설계를 수정한 적은 많으나, 이번 건은 생산 과정 후반부에서 일어난 일이다.
엔비디아가 설계 과정에서 실수를 저지른 것인지, 아니면 생산 과정에서 새롭게 관측된 문제인 것인지는 불분명하다. 확실한 것은 AI GPU가 고도화될수록 이런 문제가 빈번히 발생할 확률이 높다. AI GPU 아키텍처는 3D 적층단을 쌓으면서 통신 지연시간을 줄이는 방향으로 발전한다. 대신 내부 열이 여러 층의 수직 구조를 통과해 방출되기 어려워진다
결과적으로 엔비디아는 블랙웰 출시를 당초 계획한 올해 5월에서 내년 상반기 말로 연기했다. 이미 출시 일정은 지난 8월 GB200 설계 결함 사건에 의해 12월로 지연된 바 있다.
대형 클라우드 공급사는 블랙웰 지연을 대비하고 있는 것으로 알려졌다. 마이크로소프트는 NVL72의 일부 구성요소를 교체해 자체 환경에 맞도록 커스터마이징할 계획이다. 엔비디아 관계자는 "엔지니어링 반복은 정상적이고 예견된 일"이라며 "고객사와 공동 엔지니어링이 필요하다"고 말했다.
다른 업체는 블랙웰 이전 시리즈인 호퍼를 더 많이 구매하는 방향을 택했다. 엔비디아 입장에서는 블랙웰 지연에도 불구 호퍼를 많이 판매한다면 단기 수익은 걱정없다. 다만 중장기적으로는 엔비디아에 악재다. 고객사가 자본지출 예산을 호퍼에 많이 배정하면 블랙웰을 주문할 여력이 감소하기 때문이다.
암페어(Ampere)로 시작한 엔비디아 AI GPU의 '2년 개발주기'는 블랙웰부터 맥이 끊길 예정이다. 애초에 엔비디아는 2020년 암페어 → 2022년 호퍼 → 2024년 블랙웰 → 2026년 루빈(Rubin) 출시 일정을 제시했다. 고객은 예측 가능한 2년 주기를 바탕으로 데이터센터 업그레이드 주기를 정했다. 만약 주기가 2년 이상으로 길어지면 고객의 지출 시기도 점점 지연된다. 이는 곧 엔비디아의 수익 전망을 악화하는 배경이 된다.
결국 엔비디아는 냉각 시스템이든 프로세서 설계 관점에서든 해결책을 내놓아야 한다. 실제로 엔비디아는 차세대 냉각 시스템인 침수 냉각을 개발 중이다. 서버 OEM 파트너사 휴렛팩커드 엔터프라이즈(HPE)는 액체에서 기체로의 상변화를 활용한 2상(P2P) 냉각 방식을 연구하고 있다.
엔비디아는 11월 20일 미국장 정규시간 마감 후 3분기 실적을 발표할 예정이다.
저작권자 © 전자부품 전문 미디어 디일렉 무단전재 및 재배포 금지