코딩일기

Gemini(제미나이), 늦기 전에 알아보세요(feat. Google multi-modal) 본문

Code/딥러닝(NL)

Gemini(제미나이), 늦기 전에 알아보세요(feat. Google multi-modal)

daje 2023. 12. 8. 05:02
728x90
반응형

오늘은 Gemini(제미나이)에 대해서 소개해드리는 시간입니다. Gemini가 무엇이고, 누가 만들었고, 어떤 기능을 할 수 있는지에 대해서 알아보도록 하겠습니다. 텍스트 뿐 아니라 음성과 이미지 등을 이해할 수 있는 멀티모달 방식의 ai로 만들져서 채팅 수준을 넘어 말하거나 들을 수 있고, 그림도 이해할 수 있습니다. 수학 문제를 풀거나 데이터를 분석하는 높은 추론 능력까지 갖추어 프로그램 코딩까지 할 수 있다고 설명하였습니다. 제미나이(Gemini)는 Ultra, Pro, Nano 3가지 모델로 구성되어 있습니다. 구글은 제미나이(Gemini) Ultra가 GPT4보다 성능이 좋다고 주장합니다. 그러나, 개발자들 사이에서는 정말 좋다고 말할 수 있는 것인가? 에 대한 논란이 붉어지고 있습니다. 왜 논란이 되었는지에 대해서 살펴본 후 제미나이(Gemini)가 가지고 있는 장점들 그리고 어떻게 활용할 수 있는지에 대해서도 함께 소개해드리고자 합니다.

 

이슈

이슈 1 - 언어모델 성능 과연 신뢰할 수 있는 것인가?

Gemini vs GPT4 성능 비교 이미지

이 이미지는 언어이해도(MMLU) 성능을 제미나이와 GPT4를 비교해놓았습니다. 자세하게 보시면, 하얀색 조그마한 글씨로 GPT-4는 5-shot이고, gemini는 CoT32가 적혀 있습니다. 일반인들께서는 이게 먼데? 라고 말하실 수 있지만, 이건 엄청난 차이가 있는 것입니다.

일반인분들을 위해 조금 쉽게 설명하자면, 인간의 지능을 89.8%라고 했을 때 GPT4는 5번을 시도하여 86.4%가 된 것이고, 제미나이는 32번을 시도하여 90.0%가 된 것입니다. 그런데, 그냥 32번을 시도한 것이 아닙니다. 논문 appendix를 살펴보면 아래와 같은 figure7 표를 찾으실 수 있습니다.

일단, CoT(Chain-of-Thought : 여러 단계의 추론 과정을 생성하도록 유도하여 언어 모델의 추론 능력을 향상시키는 기법)로 32번을 GPT4와 비교하여도 GPT4가 앞섭니다.

구글에서 Uncertainty-Routed라는 새로운 CoT32방법을 사용하여야 겨우 GPT4의 성능을 넘어서는 것을 볼 수 있습니다. 그렇다면 Uncertainty-Routed 방식이 무엇인지 궁금하실텐데요. 쉽게 설명드리자면, 인공지능에게 명백하게 일관성이 없는 정보 물어보는 방식입니다. 이 방식이 중요한 의미를 갖는 이유는 언어모델의 경우 정치 이야기를 하다가 갑자기 물리 이야기를 하면 응? 어떻게 말하지? 를 고민하면서 이상한 말을 생성하거나, 틀린 답을 생성하는 경우가 발생됩니다. 이러한 현상을 할루시네이션이라고 하는데, 언어 모델에서는 이 부분이 아직까지 숙제로 남아 있습니다. 구글은 사용자들의 엉뚱함을 대처하기 위해 노력한 것으로 본 저자는 생각을 합니다. 왜 이렇게 생각을 하였냐면 실제로 서비스를 만들더라도 사용자들의 엉뚱함을 대처하기가 상당히 까롭다고 느끼고, 제미나이를 소개하는 영상에서도 상당히 엉뚱한 질문들을 하는데, 제미나이가 잘 대처하는 것을 볼 수 있습니다. 바로 이 영상입니다.

제미나이 소개 영상 : interacting with multimodal AI

 

이슈 2 - 동영상을 입력으로 넣은게 아니라고?

오~ 신기해서 막 넘겨보다보면, 영상 1분 쯤에 소개하는 자막을 놓치게 될 수 있습니다.

여러분이 보는 것은 연속된 이미지를 보여주고 추론을 한 것이라고 이야기합니다. 그런데, 영상을 보면 영상을 넣어 실시간으로 인공지능이 대답하는 것처럼 보입니다. 영상을 넣어서 실행한게 아니라 이미지를 넣어서 인공지능이 대답한 것을 영상으로 편집한 것입니다.

머, 그럴 수 있지? 라고 생각할 수 있지만 트위터에서는 뜨거운 감자입니다.

수 많은 구독자를 가지고 계신 @svpio님은 당황스럽다고 이야기를 하시네요!

그래서 Gemini가 먼데?

제미나이란?

text, code, image, video, audio를 이해할 수 있는 multimodal AI 입니다. gemini의 철학은 사람이 생각하는 방식으로 우리 주변 세계를 이해 하려고 노력한다고 이야기하고 있습니다. 즉, 사람이 세상을 이해하는 것과 비슷하게 인공지능이 세상을 이해하게 만들고 싶다고 합니다.

GPT4랑 무엇이 다른건데?

근본적으로 GPT4와 다릅니다. GPT4는 언어모델이고, 그 위에 이미지를 이해하는 모델 등을 추가하면서 복합적으로 작용하는 것이고, gemini는 모델 하나로 이 모든 것을 해보겠다는 것입니다.

제미나이 종류는?

gemini는 크게 3가지로 구성되어 있습니다. 서두에도 말씀드렸듯 울트라, 프로, 나노로 구성되어 있는데 각각의 모델은 목적이 조금 다른 것 같습니다. 확실히 구글은 전세계에 자신들의 상품이 많이 깔려있기에 그 제품을 업그레이드 할 수 있는 쪽으로 생각을 하는 것 같습니다. 저자는 구글이 가정 안으로 들어오고 싶어 한다고 오래전부터 생각을 해왔는데요. 역시 제미나이에도 그러한 노력이 보입니다. 이렇게 생각하는 이유는 디바이스에 넣을 수 있도록 나노라는 버전이 나와 있고, 데미스 하사비스(Demis Hassabis) 구글 딥마인드 CEO 인터뷰에서 향후 계획을 로봇 관련된 쪽으로 나아가겠다고 이야기하고 있기 때문입니다. 또한, 제미나이는 숙제를 도와주는 기능도 탑재되어 있습니다.

 

언제부터 쓸 수 있는데?

gemini pro는 현재 bard(바드)에 적용이 되어 있기에 지금 bard를 쓰면 gemini-pro를 쓰고 있는 거라고 보면 됩니다. 지금 공개되어 있습니다.

Nano의 경우, 인터넷 없이 작은 device에 실제로 탑재하는 것을 목표로 하고 있다고 합니다. 픽셀 8부터 탑재된다고 하네요. 픽셀 8 프로는 제미나이 나노를 실행하도록 설계된 최초의 스마트폰입니다. 제미나이 나노는 녹음 앱 상의 요약하기와 같은 새로운 기능을 지원하며, 오늘 왓츠앱(WhatsApp)을 시작으로 내년에는 더 많은 메시징 앱과 함께 지보드(Gboard)의 스마트 답장에 적용될 예정입니다. 자세한 내용은 픽셀 블로그에서 확인해 보세요. 

구글은 확실히 안정성을 매우 중요하게 생각하기에 Ultra는 조금 시간이 걸릴거 같습니다.

현재 제미나이 울트라는 출시를 앞두고 신뢰할 수 있는 외부 기관 소속 레드팀의 리뷰 등 광범위한 신뢰성 및 안전 점검을 완료한 후, 미세 조정과 사람의 피드백을 통한 강화 학습(Reinforcement Learning from Human Feedback: RLHF)을 거쳐 모델을 더욱 개선하는 작업을 진행 중입니다.

이 과정의 일환으로 구글은 일부 고객, 개발자, 파트너, 안전 및 책임 전문가에게 제미나이 울트라를 공개해 초기 실험을 진행하고 피드백을 받은 후 내년 초에 개발자와 기업 고객을 대상으로 광범위하게 제공할 예정입니다. 

또한, 가장 뛰어난 성능의 최대 규모 모델인 제미나이 울트라를 적용해 새롭고 최첨단의 AI경험을 제공하게 될 바드 어드밴스드(Bard Advanced)를 내년 초에 선보일 예정입니다. 

 

장점은 무엇일까?

저자가 생각하는 제미나이의 장점은

  1. 논문을 일괄적으로 찾아주는 것
  2. 숙제채점를 도와주는 것
  3. 코드를 작성하는 것

입니다. 코드는 정말 정말 작성을 잘합니다. 심지어 코드테스트는 pro로만 진행하였습니다. 울트라로 적용을 한다면 지금보다 훨씬 더 좋은 성능을 낼 것으로 기대가 됩니다. 점점 인공지능이 개발자의 영역까지 들어오고 있는 현 시점 우리는 어떻게 미래를 개척해야할지 진지한 고민이 필요할 때라고 생각합니다.

긴 글 읽어주셔서 감사합니다.

728x90
반응형
Comments