[영상] AI, LLM에서 멀티모달로…영화 'HER' 사만다의 재림인가

2024-05-20 장현민 PD

본문요약

지난 13일(현지 시각) 구글은 제미나이 1.5를 발표하며 AI를 검색 엔진에 본격적으로 적용할 계획을 밝혔다. 오픈AI는 그보다 하루 전에 GPT-4o를 발표했다. GPT-4o는 텍스트 입력에서 음성으로 답변하는 등 멀티모달 기능을 강조했다. 50개 언어를 지원하며 실시간 대화가 가능한 속도로 답변이 가능하다. 윤상호 전문기자는 "GPT-4o는 텍스트 입력뿐만 아니라 음성 입력에도 음성으로 답변을 제공한다. 시각장애인이 택시를 잡는 예시를 통해 이 기능을 시연했는데, 카메라로 택시를 비추면 '손 들어'라고 안내해주는 기능이 있다"고 설명했다. 멀티모달 AI 시대가 본격화되면서 입력 방식과 출력 방식이 자유로워지고 있다. GPT-4o와 제미나이 1.5는 이러한 변화를 주도하며, 구글과 오픈AI는 각각의 강점을 바탕으로 다양한 기능을 제공한다. 제미나이 1.5는 검색 과정을 간소화하여 역삼역 근처의 고깃집을 검색하고 예약까지 해주는 기능을 갖추고 있다. 또한 구글은 '프로젝트 아스트라'와 '비오'(Veo)를 발표하며 텍스트 입력 시 영상을 만들어주는 기능을 추가했다. 이러한 AI 기술의 발전은 자본의 싸움에서 비롯된다. 윤상호 전문기자는 "음성 데이터는 텍스트 데이터보다 훨씬 많고, 이를 처리하기 위해 더 많은 컴퓨팅 능력이 필요하다. 따라서 AI 반도체 수요가 급증하고 데이터센터에 대한 투자가 중요해졌다"고 설명했다. 구글은 AI 반도체 6세대 TPU(Tensor Processing Unit)를 공개하며, 학습과 추론을 모두 처리할 수 있는 기능을 자랑했다. 이는 패키징과 파운드리 시장의 성장을 의미하며, 반도체 수요는 계속해서 증가할 것으로 예상된다. 윤상호 전문기자는 "AI 반도체와 HBM으로 대표되는 D램의 수요는 계속해서 증가할 것"이라며, "낸드의 경우 AI 데이터센터의 신규 수요가 있지만 기존 데이터센터의 수요는 교체 수요로 남을 것"이라고 전망했다. AI 기술이 상용화되면서 구글과 MS는 AI를 통해 매출을 올리고 있지만, GPT를 만드는 오픈AI는 아직 큰 이익을 내지 못하고 있다. 이는 B2B 형태로 AI를 공급하기 때문에 발생하는 문제로, 온디바이스 AI의 중요성도 부각되고 있다. 윤상호 전문기자는 "온디바이스 AI는 개인의 발음이나 억양, 사투리 등을 학습하며, 클라우드 AI와 병행해 발전할 것"이라고 설명했다. 이는 AI 업체들이 온디바이스 AI와 클라우드 AI를 병행해 발전시킬 필요성을 의미한다. AI 기술의 발전 속도는 빠르지만, AI 업체들이 돈을 벌 수 있는가에 대한 의문은 여전히 남아 있다. AI를 통해 무엇을 할 것인지에 대한 명확한 비전이 필요하며, B2B와 B2C 모두에서 AI 기술이 어떻게 적용될지 지켜봐야 할 것이다.

Q&A

Q: AI 관련해서 어떤 새로운 소식이 있나요?

A:간밤에 구글이 제미나이 1.5를 발표하면서 검색 엔진에 AI를 본격적으로 적용하겠다고 했습니다. 그리고 오픈AI가 GPT-4o를 발표했죠.

Q: GPT-4o와 제미나이 1.5의 차이점은 무엇인가요?

A: GPT-4o는 음성으로 물어보면 음성으로 답변하는 AI입니다. 실시간 대화가 가능한 속도로 답변을 하며, 한국어를 포함한 50개 언어를 지원합니다. 제미나이 1.5는 검색 엔진에 AI를 적용해 검색 과정을 단축시키는 기술을 제공합니다.

Q: GPT-4o의 주요 기능은 무엇인가요?

A: GPT-4o는 음성으로 질문하면 음성으로 답변하며, 실시간 대화 속도를 자랑합니다. 또한, 사진이나 영상을 입력하면 음성으로 답변을 제공할 수 있는 기능도 갖추고 있습니다.

Q: 구글이 발표한 제미나이 1.5는 어떤 기능을 제공하나요?

A: 제미나이 1.5는 검색 과정을 단축시키는 AI 기능을 제공합니다. 예를 들어, 특정 음식점을 찾기 위해 여러 단계를 거쳐야 했던 것을 한 번의 자연어 입력으로 해결할 수 있게 해줍니다.

Q: 멀티모달 AI는 무엇을 의미하나요?

A: 멀티모달 AI는 입력 방식과 출력 방식이 다를 수 있는 AI를 말합니다. 예를 들어, 텍스트를 입력하면 음성이 출력되거나, 사진을 입력하면 음성이 출력되는 등 다양한 방식으로 상호작용할 수 있습니다.

Q: LLM(라지 랭귀지 모델)은 무엇인가요?

A: LLM은 언어 모델이 좋아지면서 생성형 AI가 가능해진 기술입니다. 예를 들어, 2 곱하기 5라는 수학 문제를 언어적 표현으로 이해하고 풀 수 있는 능력을 갖춘 AI입니다.

Q: 기존의 음성 변환 기술과의 차이는 무엇인가요?

A: 기존에도 음성을 문자로 변환하거나 문자를 음성으로 변환하는 기술은 있었습니다. 하지만 GPT-4o는 이러한 과정을 실시간으로, 더 빠르게 수행할 수 있습니다.

Q: AI 반도체의 수요가 증가하는 이유는 무엇인가요?

A: 음성 데이터는 문자 데이터보다 훨씬 많습니다. 이를 빠르게 처리하기 위해서는 더 많은 컴퓨팅 능력이 필요하고, 따라서 AI 반도체의 수요가 증가하게 됩니다.

Q: AI 데이터는 어떻게 얻고 가르치나요?

A: AI 데이터를 얻기 위해서는 저작권 문제를 해결해야 하고, 이를 잘 가르치기 위해서는 데이터 사이언스 전문가들이 필요합니다. 더 나은 공부법으로 데이터를 학습시켜야 비용을 줄이고 효율을 높일 수 있습니다.

Q: 구글의 AI 반도체 트릴리움(Trillium)에 대해 설명해주세요.

A: 구글의 트릴리움은 6세대 AI 반도체로, TPU(Tensor Processing Unit)라고 불립니다. 학습과 추론 모두를 처리할 수 있으며, 이는 패키징과 파운드리 시장도 함께 성장할 것임을 의미합니다.

Q: 낸드(NAND)와 HBM의 차이점은 무엇인가요?

A: HBM은 높은 대역폭 메모리로, AI 반도체에 필수적입니다. 반면, 낸드는 AI 데이터센터의 교체 수요로 인해 상승 곡선을 그리지만, 급상승하지는 않을 것입니다.

Q: AI 관련 기업들의 수익성은 어떤가요?

A: 구글이나 MS의 주가는 올랐지만, 메타의 주가는 떨어졌습니다. 이는 AI를 매개로 한 새로운 서비스들에서 매출이 발생하기 때문입니다.

Q: 온디바이스 AI와 클라우드 AI의 차이점은 무엇인가요?

A: 온디바이스 AI는 개별 장치에서 AI 기능을 수행하며, 클라우드 AI는 중앙 서버에서 수행합니다. 두 기술은 병행해서 발전할 것입니다.

Q: AI 업체들이 앞으로 해결해야 할 과제는 무엇인가요?

A: AI를 통해 무엇을 할 것인가에 대한 명확한 비전이 필요합니다. 현재 AI 업체들은 돈을 벌 수 있는지에 대한 의문이 계속되고 있습니다.

Q: 멀티모달 AI가 실생활에 어떻게 적용될 수 있나요?

A: 실시간 통역이나 음성 입력, 음성 출력 기능 등이 실생활에서 유용하게 사용될 수 있습니다. 예를 들어, 통역기나 스마트워치 형태로 제공될 수 있습니다.