[IEIE 2023] AI 급성장, 서버·전력 비용도 급증…해결책은?
AI 추론 효율성 개선 ‘양자화’ 주목
초거대 AI ‘선생’-경량화 AI ‘학생’…실제 서비스, 경량화 AI로
2024-06-28 윤상호 기자
인공지능(AI)이 급성장하고 있다. 특히 트랜스포머(Transfomer) 모델에서 출발한 거대언어모델(LLM) 기반 AI가 주목을 받고 있다. LLM은 대규모 연산과 데이터가 필요하다. 이에 따라 데이터센터 구축과 운용에 들어가는 비용을 줄이기 위한 노력도 본격화했다.
28일 한양대 최정욱 교수와 서울대 심규홍 연구원은 제주 서귀포시 롯데호텔 제주에서 열린 ‘대한전자공학회(IEIE) 2023년도 하계종합학술대회’에서 ‘트랜스포머 기반 초거대 AI 모델 경량화’를 소개했다.
트랜스포머 모델은 2017년 구글이 제안했다. 문장 속 단어 같은 순차 데이터를 분석해 맥락과 의미를 학습하는 머신러닝(ML) 모델이다. 트랜스포머 모델은 등장 6년 만에 ML 주류로 부상했다.
최 교수는 “트랜스포머 모델에서 출발한 LLM은 챗GPT처럼 AI 분야 게임체인저로 주목을 받고 있다”라며 “기계 번역에서 시작해 ▲컴퓨터 비전 ▲음성 인식 등 응용 분야를 확장하고 있다”라고 말했다.
트랜스포머 모델은 규모가 클수록 성능이 좋아진다. 문제는 비용과 시간이다. 데이터 저장과 처리를 위해 데이터센터를 늘려야 한다. 만들면 끝이 아니다. 데이터센터를 가동하는 것도 돈이다. ESG(환경·사회·지배구조) 경영에도 부담이다.
최 교수는 “LLM 비용을 낮추기 위해 연산과 메모리 복잡도를 줄여 AI 추론 과정 효율을 높이는 양자화(Quantization) 기술에 관심을 받고 있다”라며 “그래픽처리장치(GPU)의 성능을 100% 끌어내고 메모리반도체와 사이에서 병목현상을 완화하는 것으로도 데이터센터 투자와 운영비를 내릴 수 있다”라고 조언했다.
트랜스포머 모델 양자화는 학습 후 양자화(PTQ: Post-training Quantization)와 양자화 인식 훈련(QTC: Quantization-aware Training)이 대표적이다. PTQ는 학습용 데이터를 대폭 줄이는 방식이다. QAT는 줄어든 데이터로 발생하는 오류를 최소화하기 위한 방안이다.
심 연구원은 “LLM을 선생 QAT를 거친(경량화) AI를 학생으로 생각하면 이해가 쉽다”라며 “10개 서비스를 위해 10개 LLM을 활용하는 것보다 각 서비스에 LLM을 기반으로 학습한 경량화 AI를 이용해 서비스 품질은 유지하고 비용은 줄이는 전략”이라고 설명했다.
디일렉=윤상호 기자 crow@bestwatersport.com
《반도체·디스플레이·배터리·자동차전장·ICT부품 분야 전문미디어 디일렉》