본문 바로가기
기타

구글의 인공지능 모델 데모 : 놀라운 기능과 현실의 괴리감

by 짠돌이세금 2023. 12. 9.
반응형

구글의 인공지능 모델 데모

요새 정말 신기한 것이 나왔습니다. YouTube에서 160만 조회수를 기록한 Gemini라는 구글의 인공지능 모델 데모 동영상은 AI가 음성 안내와 영상에 실시간으로 반응하는 놀라운 장면을 보여줍니다. 이 동영상은 현재 정말 기가 막히고 인기가 많습니다. 

구글의 인공지능 모델 데모 

구글은 동영상 설명에서 데모를 위해 응답 속도를 높였을 뿐이며, 모든 것이 사실과 다르다고 밝혔습니다. 그러나 AI가 음성이나 영상에 전혀 반응하지 않았다는 사실도 인정했습니다. 이러한 사실은 중요합니다. 데모와 함께 게시된 블로그 게시물에서 Google은 실제 동영상이 어떻게 만들어졌는지 공개했습니다. 이렇게 함으로써 구글은 투명성을 유지하려고 노력했습니다. 또한 블룸버그 오피니언이 처음 보도한 대로, 구글은 BBC에 "영상에서 정지 이미지 프레임을 사용하고 텍스트를 통해 프롬프트를 보내는 방식으로" AI에 질문을 던져 실제로 제작되었다고 확인했습니다. 이러한 방식은 흥미로운 접근 방식입니다.

구글 대변인은 "핸즈온 위드 제미니 데모 동영상은 제미니의 실제 프롬프트와 출력을 보여줍니다."라고 말했습니다. 이것은 중요한 설명입니다. "제미니의 다양한 기능을 보여주고 개발자에게 영감을 주기 위해 제작했습니다." 이 동영상은 개발자들에게 큰 영감을 줄 것입니다. 데모 동영상에서 한 사람이 화면에 사물을 보여주면서 Google의 AI에 일련의 질문을 던집니다. 이 동영상에서는 AI의 기능을 보여줍니다. 예를 들어, 시연자가 고무 오리를 들고 제미니에게 오리가 물에 뜨는지 물어봅니다. 이 질문은 흥미롭습니다.

구글의 데모 동영상과 AI의 현실적 반응

처음에는 고무 오리가 어떤 재질로 만들어졌는지 잘 모르지만, 사람이 오리를 쥐고 삐걱거리는 소리가 난다고 말하자 AI는 물체를 정확하게 식별합니다. 이것이 바로 AI의 놀라운 능력입니다. 하지만 동영상에서 표면적으로 보이는 것과 실제로 프롬프트를 생성하기 위해 일어난 일은 매우 다릅니다. 이러한 내용을 알게 되었을 때 매우 흥미로웠습니다. AI는 실제로 오리의 정지 이미지를 보여주고, 어떤 재료로 만들어졌는지 물었습니다. 그런 다음 오리를 눌렀을 때 삐걱거리는 소리가 나는 설명이 텍스트 프롬프트에 입력되었고, 이를 통해 오리를 정확하게 식별할 수 있었습니다. 또한 다른 인상적인 순간은 움직이는 컵 3개 중 하나 아래에 공을 숨기는 마술사가 컵과 공 마술을 선보였습니다.

AI는 이동한 공의 위치를 알아내는 데 성공했습니다. 하지만 이번에도 AI는 동영상에 반응하지 않았기 때문에, 이러한 성과를 달성하기 위해 일련의 정지 이미지를 보여줌으로써 대체되었습니다. 구글은 블로그 게시물에서 AI에게 세 개의 컵 아래에 공이 있는 위치를 알려주고 컵이 교체되는 과정을 담은 이미지를 보여줬다고 설명했습니다. 구글은 이 데모가 "다양한 과제에 대한 Gemini의 능력을 테스트하기 위해" 비디오에서 영상을 캡처하여 만든 것이라고 설명했습니다.

게임까지 받아들이는 Gemini

시퀀스가 짧아지고 스틸 이미지가 사용되었지만, 비디오의 음성 해설은 Gemini에 입력된 서면 프롬프트에서 직접 발췌한 것입니다. 하지만 영상에는 진실을 더욱 확장하는 추가적인 요소도 있습니다. 사용자가 세계 지도를 내려놓고 AI에게 "보이는 것을 바탕으로 게임 아이디어를 내고 이모티콘을 사용해 보세요."라고 질문합니다. AI는 캥거루와 코알라 등의 단서를 제시하고 사용자가 국가(이 경우 호주)를 가리키면 정답을 맞히는 '국가 맞추기'라는 게임을 고안한 것으로 보입니다. 하지만 구글의 블로그에 따르면, 이 게임은 사실 AI가 개발한 것은 아닙니다.

대신 AI는 다음과 같은 지시를 받았습니다: "게임을 해보자. 한 국가를 생각하고 단서를 알려주세요. 단서는 단 하나의 국가만 맞출 수 있을 정도로 구체적이어야 합니다. 지도에서 해당 국가를 가리키겠습니다."라는 메시지가 표시되었습니다. 그런 다음 사용자는 AI에게 정답과 오답의 예를 제시했습니다. 그 후 Gemini는 단서를 생성하고 사용자가 지도의 스틸 사진에서 올바른 국가를 가리키고 있는지 아닌지를 식별할 수 있었습니다.

AI의 능력과 실제 구성 방법

인상적이긴 하지만 AI가 게임을 발명했다고 주장하는 것과는 다릅니다. Google의 AI 모델은 스틸 이미지와 텍스트 기반 프롬프트의 사용 여부와 관계없이 인상적이지만, 이러한 사실은 그 기능이 OpenAI의 GPT-4와 매우 유사하다는 것을 의미합니다. 또한 이 비디오가 공개된 시점이 샘 알트먼이 OpenAI의 CEO를 극적으로 해고한 뒤 다시 고용한 후 AI 업계가 전례 없는 혼란을 겪은 지 불과 2주 만에 공개되었다는 점도 주목할 만합니다. 이 중 어느 쪽이 더 발전된 것인지는 확실하지 않지만, 알트먼이 파이낸셜 타임즈와의 인터뷰에서 구글이 다음 버전의 인공 지능을 개발 중이라고 밝혔기 때문에 구글이 이미 따라잡고 있는 것일 수도 있습니다. 이처럼 구글의 인공지능 모델 데모는 정말 놀랍고 신기한 결과라고 할 수 있을 것입니다.

반응형