[영상] 반도체 소프트에러 테스트 장비 개발 착수한 큐알티 ①
2020-09-28 장현민 PD
<자막원문>
한: 안녕하십니까 디일렉 한주엽입니다. 오늘은 제가 큐알티(QRT)라는 회사에 와서 자동차의 안전사양, 자율주행 관련되어 있는 안전사양이 대해서 좀 얘기 좀 해보려고 합니다 오늘 세 분을 모셨는데요. 각자 소개를 좀 해 주시기 바랍니다
기: 안녕하세요 저는 기중식 연구위원입니다.
정: 안녕하세요. 저는 정성수입니다. 큐알티에서 CTO(최고기술책임자)로 일하고 있습니다.
김: 안녕하세요 저는 김기석입니다. 큐알티에서 연구소장을 맡고 있습니다.
한: 기박사님은 원래 큐알티에 언제부터 계셨습니까?
기: 2018년 8월부터. 제가 가장 오랫동안 근무했던데는 SK하이닉스입니다. 거기서 한 27년 정도 근무하다가 중간에 이제 학교에도 좀 있고 그다음에 조그마한 벤처기업에도 있다가 2018년에 큐알티에 조인했습니다.
한: 연구소장님은 그럼 언제 오셨어요?
김: 저도 아까 기박사님 말씀하신 것처럼 SK하이닉스에서 20년 메모리 개발을 담당했습니다. 그래서 SK하이닉스 메모리 개발 담당 20년을 하고 사내 대학 ‘SKHU’라고 들어보셨을 거에요. 거기서 사내대학에서 전임교수 소자 전공으로해서 22년 동안 강의를 했었구요. 전임교수로. 그다음에 제가 큐알티에 조인한 건 2018년 11월입니다. 그래서 2018년 11월이니까 이제 1년 반에서 2년 가까이 되가는 것 같습니다.
한: 정박사님은 큐알티 오시기 전에는 미국에서 일을 하셨죠?
정: 저는 미국에 34~35년 정도 살았는데 한국의 브레인스카우팅에 나올 수 있는 기회가 있어서 왔다가 다시 한국에 사는 게 좋다고 생각해서 집사람하고 같이 한국으로 완전히 귀화를 했습니다. 그래서 역임위원을 하게 된 거죠.
한: 오늘 저희가 얘기할 것은 요즘 뭐 자동차 쪽, 자율주행차 얘기도 많이 나오고 있고 자동차에 반도체가 많이 들어가게 되는. 과거에는 기계 쪽이, 물론 지금도 기계 쪽이 되게 중요하긴 하지만 앞으로는 전자 장비에 대한 의존도가 굉장히 높아지고 또 전자 장비가 많이 들어가다 보니까 안전에 대한 사람들의 불안감 혹은 요즘 자율주행 몇 단계라고 하는데. 자율주행기능을 켜놓고 가도 안전한 것인지에 대해서 우려하는 사람들도 있고 생각없이 운전하시는 분도 있긴 한데. 저는 큐알티를 찾아오기 전에 나와 있는 기사라든지 기존에 나와있는 보도를 보면 외계에서 떨어지는 중성자(뉴트론)나 알파 파티클이 반도체에 에러를 유발할 수있다. 이런 얘기들이 이게 도대체 어떤 것을 의미하는 건지 말씀을 해주시겠습니까?
정: 사실 저희들이 얘기해서 잘 이해할 수 있을 정도로 짧을 시간 내에 얘기하기가 참 어려운 과제 중에 하나가 반도체에 미치는 영향 중에서 특히 방사선. 중성자나 알파 입자가 주는 건데. 알파는 물질 속에서 나오는 것이고 중성자는 외계에서 들어오는 입자 때문에 생기는 부산물(By-product)라고 생각하시는 건데. 그게 반도체가 점점 적어지면서 그 입자가 가지고 있는 에너지 때문에 반도체가 동작할 때 가지고 있는 값을 바꿀 수 있는 수준까지 내려오게 됐고 이제는 7나노까지 오게 됐는데. 바뀌는 빈도가 점점 많아지고 있죠. 그게 전압도 낮아지고 크기가 작아지고 여러 가지 요소들이 소프트 에러를 유발할 수 있는 컨디션을 자꾸 좋게 만드는 방향으로 가고 있는 거죠. 그래서 자동차에 들어가면 집약적으로 반도체를 많이 쓰게 되는 전기 자동차의 경우에는 자동차 하나에 웨이퍼 한 장정도 양의 반도체가 들어갈 수 있다고 얘기를 하더라구요.
한: 엄청나게 많이 들어가는 거죠.
이: 엄청나게 많이 들어가는데 거기에서 오는 전체적인 에러율이 적지는 않죠. 그리고 아침에 시동을 걸고 출근하는 차가 100만대가 될 수도 있고 200만대가 될 수도 있는데 그 수가 가속적으로 멀티플라이됨으로 인해서 생기는 위험성이 자동차에 미치는 가장 중요한 요소라고 생각하고 있습니다.
한: 알파 입자와 중성자 입자라고 하는데. 그럼 저도 계속 맞고 있는 거예요? 그 입자를?
정: 계속 맞고 있는데 지금 국제반도체표준협의기구(JEDEC) 표준에 보면 평방 센티미터에 한 시간당 14개라고 나와 있습니다.
한: 14개가 떨어져요?
정: 14개가 에너지가 높은 것만 한거거든요. 낮은 것과 높은 것을 다 합하면 열중성자까지 포함했을 때 평방 센티당 약 40개 정도된다고 그래요.
한: 평방 센티미터당 약 40개.
정: 그래서 키가 좀 크신 분이 여름에 해운대 해변에 서 있는다고 그러면 1시간당 우리 피부 표면으로 맞는 중성자양이 그때 관통하는게 약 4만개 정도된다고 볼 수 있습니다. 상당히 많은 양이라고 생각되죠.
한: 그게 사람 몸에는 영향이 있겠죠. 사람 몸에도 영향이 있고 반도체에도 영향이 있다는 거잖아요?
정: 그렇죠. 반도체는 즉각 현상을 나타낼 수 있는데. 몸의 경우는 아마 축적이 되면서 셀이 죽거나 셀이 나빠지면 또 새로운 셀이 생기니까 자꾸 교체되는 과정에서 직접적인 영향을 주는 경우는 없겠죠.
한: 하드웨어 에러가 아니고 소프트 에러라는 것은 예를 들어서 우리가 어딘가 반도체를 붙였을 때, 차량 기판에 붙였을 때 약간 접촉이 잘 안됐다거나하는 이런 하드웨어적인 에러는 눈으로 보면 찾을 수 있는 건데. 소프트 에러는 알기 어려운 것 아닙니까? 어떻게 문제가 생겼는지에 대해서?
정: 그렇죠. 증명하는데 상당히 많은 시간이 걸리고 전체적으로 반도체에서부터 시작해서 중성자의 에너지 그다음에 중성자가 떨어지는 숫자 이런 것들에 대한 전반적인 것들이 다 알려지고 실험적으로 이게 다 증명될 수 있기까지 상당히 많은 시간이 걸렸습니다. 그리고 그게 실제 반도체에 보여주는 효과들까지 합해지게 되면서 많은 사람들이 알게 된 거죠. 그렇지만 그게 가지고 있는 학문적인 체계라거나 그 뒤에 있는 양자역학적인 이론은 전부 다 되어있죠. 그렇지만 그걸 쉽게 장비를 만들어서 평가하고 “이거는 이거다”, “어느 부위다”, “정확한 값이 얼마다”라고 까지 알기에는 아직도 부족한 점이 많아서 삼성이나 SK하이닉스 같은 대기업에서 7나노나 최근 반도체를 개발하려고 하면 시뮬레이션도 하고 여러 가지 분석과정도 하지만 실제 평가를 하면서 현상도 보고 해야되는 그런 노력들이 많이 들어가고 있고 실제로 지금도 많이 하고 있고 그게 이제 두 회사가 세계 1위를 유지할 수 있는 좋은 계기가 될 수도 있었다고 생각합니다.
기: 사실은 소프트 에러라고 하는 용어 자체가 무슨 얘기인가하면 어떤 불량이 생겼다가 파워를 껐다가 다시 켜면 그 불량이 없어진다는 걸 얘기하는 겁니다. 소프트 에러 자체가.
한: 숨어버리는 거군요.
기: 그래서 이게 어떤 하드웨어 에러라는 건 그와 다르게 파워를 껐다가 다시 키더라도 계속 불량이 나타나는데. 그 얘기는 굉장히 사실은 찾기가 어렵다는 겁니다. 근데 실제로 소프트 에러로 중성자로 생긴 사례 하나를 말씀드리면 좀 오래된 얘기입니다만 10여년 전에 스위스에서 전자 개표기가 있는데 개표기에서 개표를 하고 나서 나중에 숫자를 헤아려보니까 투표한 사람보다 더 많이 나왔다고 합니다. 그걸 이제 확인을 해보니까 결국 그중에 비트 중에 여러 비트 수가 있는데 그 비트 중에 하나의 비트가 바뀌어서 그렇게 에러가 생긴겁니다. 그건 결국 나중에 분석을 해서 알게 되는 거지 그걸 나중에 파워를 껐다가 다시 켜버리면 없어져 버리니까. 굉장히 사실은 알기가 어렵습니다. 그래서 굉장히 분석하기가 어려운 불량 중에 하나라서 사실은 반도체 회사에서는 굉장히 어려운 과제 중에 하나라고 말씀드릴 수 있겠습니다.
한: 저도 자동차를 끌고 다니다가 이상하게 내가 할 때는 문제가 있었는데 고치러가면 “괜찮은데요?”라고 말해버리면 원인을 파악하지 못하면 그런 문제가 생길 수 있죠.
기: 그래서 지금 사실은 명확하게 얘기하기는 어려운데. 차량의 급발진도 소프트 에러 때문이라고 명시적으로 얘기할 순 없겠지만 그거의 의해서 생겼을 가능성도 굉장히 많다고 보시면 됩니다.
한: 예전에 일본에 있는 굉장히 큰 자동차 회사에서 급발진 사고가 났을 때도 그런 문제가 있는 게 아니냐 이런 얘기가 나오지 않았습니까? 예를 들어서 산소가 들어오는...
김: 스로틀 밸브.
한: 스로틀 밸브가 예를 들어서 그뒤에 하드웨어적인 문제는 아닌데. 어떤 순간에 문이 영구적으로 열려 있어 버리면 그러면 차가 급발진 할 수 있는 상황이 되는데. 나중에 그 결과가 어떻게 되는지는 잘 모르겠는데.
정: 그게 상당히 오래된 얘기이기도 하지만 오바마 미국 대통령 초기에 일어났는데 사회적인 문제를 많이 일으켰죠. 그래서 미국에서 가장 유명한 연구소 미국 우주항공국(NASA)를 통해서 문제를 해결하라고 했죠. 그래서 1년 정도 거의 기간이 걸려서 분석 결과가 나왔는데 여러 가지 원인 중에 소프트 에러 가능성이 있다는 얘기가 나왔고 그 뒤에 다른 연구소나 학교에서 계속적으로 동일한 문제를 2년 동안 연구한 결과는 ‘Kill-Bit’이라고 하는게 있는데 메모리 내에 있는 비트 하나가 바뀌면 그것 때문에 급발진이 생기는 걸 일단 증명을 했고 그 비트가 어떻게 바뀌었는지는 모르지만 원래는 그 비트를 2개를 가지고 있어서 꼭 비교하도록 되어 있는데. 비교하는 과정이 빠져있었고 그래서 소프트웨어적인 문제도 있었고 그다음에 구성 자체에서 오는 문제도 있고 이게 알려지게 되면서 결국 법정에 가있던 모든 것들이 다 법정 밖에서, 도요타에서 셀을 하면서 생기는 과정으로 바뀌게 되죠. 왜냐하면 이미 생산을 할 수 없는 잘못이 지적이 됐죠 그래서 그때 한 얘기가 “왜 그러면 그 빛이 바뀌었느냐”라고 했을 때 그거는 누가 써주기 전에는 바뀌지 않는 거면 가장 중요한 포인트는 소프트 에러 같은 경우에 빛이 없앴을 때가 되면 그걸 지울 수도 없고 그것 때문에 급발진이 생긴다고 결론이 났습니다.
한: 원인 증거를 남기지 않고 어쨌든 소프트웨어 같은 경우는 껐다가 켜면 찾을 수가 없기 때문에 문제라고 하는 것이죠. 지금 사실 이런, 내가 서 있는데 외계에서 들어오는 중성자를 몸에 맞고 있는 것도 사실 인지를 못 하고 있었고 이게 또 반도체나 이런 곳들에 영향을 미친다는 것도 전혀 모르던 사실이었는데. 사실 스마트폰이나 이런 것들도 문제가 생길 수 있는 것 아닙니까? 근데 스마트폰은 사람의 목숨이라든지 이런 것과, 사실 한번 껐다가 켜면 되니까. 상관이 없지만 자동차에 들어갈 때는 그게 굉장히 중요하기 때문에 최근에 얘기가 많이 나오는 것 같은데. 그러면 지금 고장이 아예 없을 수는 없는 것 아닙니까? 동작하다가 에러가 아예 없을 수는 없는 것 아닙니까? 지금 차에 들어갈 때 우리가 어느 정도의 신뢰성 수준을 맞춰야 차에 넣을 수 있어요?
정: 자동차용 반도체가 일반 반도체보다 비싸거나 특수하게 제작된 것이 아니고 평가를 하는 과정에서 얼마만큼 많은 양의 에러가 있느냐에 따라서 시스템을 설계할 때 그 에러를 고친다거나 없앤다거나 아니면 두 개의 시스템으로 동작을 해서 오류가 생겼을 때 극복할 수 있는 방법으로 해서 안정성을 유지할 수 있고.
한: 하나가 죽어버리면 하나가 돌아간다던지.
정: 그런 방법으로해서 하는 건데. 그게 가장 필요한 요소가 저희들이 생각할 때 모든 반도체가 다 안정성과 높은 신뢰성이 있게 해야된다고 생각하는데 신뢰도가 얼마인지를 알 수 있는 에러율을 줄 수 있는 값의 척도가 없으면 전체 시스템을 못 만드는 거고 그렇게 되면 얼마나 안전한지 알 수 없는 거죠. 그 과정에서 생기는게 소프트 에러율이 얼마인지 값을 정해야되고 그걸 실제 평가를 해서 정하는게 중요하죠. 그 과정에서 생기는 것들이 ASIL(자동차 안전 무결성 수준) ABCD가 있는데 ‘ASIL D‘같은 경우에는 엄청나게 적은 숫자죠.
한: 10FIT 이렇게 얘기 하던데.
정: 10FIT 이하로 되어 있는데.
한: 이하로 되어 있습니까?
정: 그래서 그 값을 하기가 상당히 힘들죠.
한: ‘10FIT’이면 10억 시간당 10번의 고장.
정: 10번의 고장이죠. 그런데 그 고장은 표준에 나와있는 내용에 따르면 안전의 문제를 주는 고장이 그렇게 밖에 없다. 그렇지만 그 사이에 다른 고장이 있는데 그 고장들이 ‘ECC’라는 회로라거나 아니면 두 개를 쓴다거나 이런걸 해서 나머지가 다 필터링되고 그런 고장이 실제로 나쁜 안정성의 영향을 줄 수 있는데까지 가지 않도록 하는 노력들이 소프트웨어나 하드웨어가 다 들어간 뒤에 결론이 난 거죠. 그런 것들을 분석할 수 있고 해서 정한 값이라고 생각합니다.
한: 10억 시간당 10번의 고장이지만 이게 뭔가 이런 고장은 사람의 목숨이나 이런 것에는 크게 영향이 없을 정도의 고장을 얘기하는 거예요?
정: 그렇지는 않죠. 그렇지만 그 빈도수가 일반적인 빈도수하고 비교한다면 엄청나게 적고 지금 현재 우리가 가지고 있는 기술력으로서 그것보다 더 낮게 만들기에는 상당히 노력이 필요한거죠.
한: 그러면 만약에 지금 ‘ASIL D’ 같은 경우는 D가 최고 등급인거죠? 최고로 안전한걸 하는건데. 이걸 만족하려면 10FIT 이하면 10억 시간당 10번의 고장 이하로 나와야 된다는 거잖아요.
정: 그렇습니다.
한: 그럼 10억 시간당 10번의 고장 이하는 날 수 있다는 얘기네요?
정: 그렇죠. 그 얘기는 뭐냐면 10억대의 자동차를 동시에 운영을 하고 있다고 그러면 10대가 그중에 잘못되서 사고가 날 수 있는 확률이 되는 거죠.
한: 근데 지금 아까 여러 가지 보안책 중에 시스템 두 개를 돌려서 하나가 죽어버리면 다른 하나가 대체한다든지 이런걸 다 포함했을 때.
정: 그렇습니다.
한: 그럼 그 측정을 어떻게 해요? ASIL D를 하기 위해서 10억 시간을 다 돌려봐야 되는 겁니까? 어떻게 해야 됩니까?
정: 그게 10억 시간을 돌린다는게 상당히 힘든 거죠. 그래서 여러 가지 방법들을 사용하고 있는데 그걸 이제 우리가 실제 사용하는 반도체의 소프트 에러율을 계산할 때는 가속을 해서 평가할 수 있고 가속에서 평가한다는 얘기는 지구상의 시간당 떨어지는 것보다 훨씬 많은 양의, 10배 1000배 주로 10의 6배 정도의 양이 나오는데서 평가를 하면 짧은 시간에 5~6년 아니면 10년의 에러를 동시에 다 볼 수 있는거죠. 그런 방법을 이용해서 계산을 하고.
한: 근데 이건 칩이 나올 때마다 다 전수조사를 할 수는 없는 거죠? 일부만 하는 겁니까? 어떻게 해야 됩니까?
정: 그래서 전수조사라기보다는 그 테크놀로지노드의 그다음에 파워가 어떻게 되는지 아니면 스피드가 어떻게 되는지에 대한 그룹의 따라서 한 기종만 하면 되죠. 그래서 테크놀로지가 같은 경우에 그게 인증하는 과정에서 한 노드를 정해서 하게 되면 같은 노드에서 생산되는 부품들은 같은 에러율을 가진다고 생각을 하고 있고 표준에서도 그렇게 정하고 있습니다.
한: 지금 자동차 회사들은 다 그렇게 신뢰성 분석을 하고 있습니까?
정: 소프트웨어적으로 전체 시스템에 대한 것들은 분석을 하고 있지만 그 분석을 원활하게 하기 위해서는 각 부품이 가지고 있는 에러율이 있고 그 에러율이 얼마가 코렉션이 되었다거나 아니면 리던던트한 구조 안에서 없어졌는지에 대한 걸 분석을 하게 되죠. 그래서 그 부품을 사올 때 그다음에 이제 모듈을 사올 때 모듈이 가지고 있는 것, 본질적인 부품이 가지고 있는 intrinsic value(내재적 가치) 그러니까 타고난 오류값을 다 제출하도록 요구하도록 되어 있는 상태입니다.
기: 좀 명확하게 하려면 예를 들어서 자동차 자체를 가속빔을 쬐여서 그게 불량이 얼마나 나는지를 사실 확인하면 가장 확실하겠죠.
한: 그렇죠. 다 몰아넣어놓고 하면 확실한데.
기: 그렇게 하기가 사실은 실제로는 굉장히 어려우니까. 보통은 각 부품들의 대해서 그런 데이터를 모으고 그다음에 그걸 가지고 실제로 어떤 코렉션을 하는지를 가지고 계산식으로 최종 전체 시스템을 얼마 정도의 불량률이 나올거라는 걸 계산해서 실제로 최종적으로 어느정도의 확률로 이런 안정성 불량들이 생길거라는 걸 계산하는 겁니다. 근데 이제 어떤 경우에는 예를 들어서 지난번에 기사가 난 것은 요즘은 통신장비도 특히 교환기 같은 경우도 이런 에러들의 의해서 실제로 잘못된 데이터를 전송하고 있기 때문에 그거에 대해서도 규격이, 표준이 테스트를 하려는 규정을 정했습니다. 그런 경우에는 실제로 교환기 자체를 가속빔에다 쬐여서 에러가 얼마나 나는지 테스트를 하는 경우는 있습니다. 근데 자동차까지는 아직 그런 경우는 보질 못했습니다.
[2편에서 계속 됩니다]