인텔이 네이버와 중앙처리장치(CPU) 중심의 인공지능(AI) 서버를 구축했다. 그래픽처리장치(GPU)를 CPU와 소프트웨어 솔루션을 통해 대체하는 방식이다. 이를 통해 AI 서버 운용 비용·구축 기간 등 절감이 가능할 것으로 보인다.
인텔은 네이버와 '네이버플레이스' 서비스 AI 모델 서버를 전환하고 모델 최적화에 성공했다고 31일 밝혔다.
인텔은 네이버 AI 모델 추론 수행용 서버를 GPU 기반에서 인텔 CPU 기반 서버로 전환했하고, 인텔 소프트웨어 솔루션을 도입했다고 설명했다. 이를 통해 장비 전환에 따른 성능 하락이나 추가 장비 투입없이 AI 서버 품질을 유지했다.
네이버G플레이스는 오프라인 상점에 대한 상세 정보 검색하고 확인할 수 있는 대표적인 O2O(온·오프라인 연계)서비스다. 이용자들이 입력한 정보를 실시간으로 수집 후 활용하고, 정보 진위를 파악하는데 AI 모델을 활용한다.
구체적으로 데이터를 가공하는 전처리, 학습, 추론 등에 AI 모델이 사용된다. 전처리와 추론 결과를 후처리하는 과정은 CPU 기반 앱서버를 통해 이뤄진다. 추론 과정은 GPU 기반 서버가 담당했다. 이를 모두 CPU 기반 서버로 전환한 것이다.
네이버G플레이스 AI 개발팀은 GPU 기반 서버에서 수행하던 추론 과정을 CPU 기반 서버로 전환할 방안을 개발하고, 성능 검증을 진행했다. 다만, 단순 전환 시 GPU 기반 서버 대비 10배 낮은 성능이 나오는 문제가 발생했다. 개발팀은 이를 해결하기 위해 신경망 추론에 최적화된 인텔 파이토치 확장팩을 도입했고, 병목현상을 제거, CPU 코어 활용을 개선하는데 성공했다. 초당 처리 개수(RPS)를 최대 7배까지 늘렸다.
현재 CPU 기반 서버는 한 달간의 사전 검증 작업을 끝내고 실제 서비스에 적용 및 운용 중이다. 한국 및 일본에서 각각 15대 GPU 기반 서버 사용을 줄여 연간 4억원 이상의 운용 비용을 절감했다. 전환에 사용된 장비는 2세대 인텔 제온 스케일러블 프로세서 기반 서버다. 네이버는 CPU 기반 서버 활용을 확대하기 위해 추가 장비 도입도 검토 중이다. 특히, 4세대 인텔 제온 스케일러블 프로세서와 인텔 어드밴스드 매트릭스 익스텐션을 활용한 테스트를 진행 중이다.
주윤상 네이버G플레이스 AI개발 팀장은 "성능 하락 없이 이전과 동일한 서비스 품질을 유지하면서 GPU 모델 서버의 CPU전환과 AI모델 최적화를 통해 운영비용을 절감할 수 있었다"며 "이를 통해 현재 서비스에 적용할 비용효율적인 AI서비스 운영 방안 마련은 물론, 향후 확대 적용할 수 있는 기술 기반을 확보했다"고 전했다.
나승주 인텔코리아 상무는 "AI는 GPU라는 고정관념에서 벗어나, 총소유비용을 최적화할수 있는 시스템과 인프라를 구축해야한다"며 "AI모델 개발 및 배포, 데이터 전·후처리를 포함하는 전체 과정을 면밀히 검토하고, CPU를 효율적으로 활용하면 GPU사용을 최소화하면서도 원하는 성능을 확보할 수 있다"고 말했다.
디일렉=노태민 기자 [email protected]
《반도체·디스플레이·배터리·자동차전장·ICT부품 분야 전문미디어 디일렉》