이기고도 이긴 줄 몰랐던 알파고, 승리의 기쁨 깨닫게 될까?

2023,Mar,28 과학 기술 구본권 시청자수 1800750

사람은 시각·청각·촉각·추론 활용
대상에 대한 종합적인 인지와 이해

한가지 기능만 뛰어난 도구 AI
통합인지 갖추면 지능폭발 가능

“멀티모달은 인공지능 개발의 성배”
오픈AI, 악용가능성 우려 공개안해

GPT4 ‘멀티모달’ 기능 왜 주목받나

오픈AI가 3월14일 공개한 GPT4에서 통합인지(멀티모달) 기능을 설명하기 위해 예시한 사진. “이 사진에서 이상한 게 뭐야”라는 질문에 GPT4는 “움직이는 택시 지붕에 다리미판을 붙이고 다림질하는 것”이라고 답해, 이미지 이해능력과 추론 능력 수준을 과시했다. 오픈AI 제공

오픈에이아이(Open AI)가 지난 14일 거대언어모델 기반의 인공지능 지피티4(GPT4)를 공개함에 따라 대화형 인공지능 챗지피티(ChatGPT)가 불붙인 논란이 뜨거워지고 있다. 어떤 질문에도 순식간에 그럴듯한 답변을 하고 전문가 수준의 결과물을 내놓는 챗지피티가 지피티3.5 기반의 모델인데, 지피티4에서 인간 지능과 좀더 비슷한 능력을 갖게 될 것이라는 기대가 있다. 반면 일부 개선된 성능에 불구하고 인간 지능과는 근본적으로 구별되는 거짓 지능이라는 비판도 높다.

GPT4, 무엇이 달라졌나?

오픈에이아이에 따르면, 지피티4는 챗지피티에 비해 정확도가 40% 개선됐고 부적절한 요청에 응할 가능성도 82% 줄었다. 미국 변호사자격시험에서 챗지피티는 하위 10% 성적을 기록한 데 비해, 지피티4는 상위 10% 성적으로 통과하는 등 각종 시험에서 뛰어난 능력을 입증했다. 월 20달러의 챗지피티 유료버전은 지피티4를 적용해 개선된 기능을 이용할 수 있다.

천연덕스러운 거짓말로 인터넷에서 화제가 된 ‘조선왕조실록에 기록된 세종대왕 맥북프로 던짐 사건’에 대해 지피티4는 “세종대왕은 15세기 조선시대 왕이었고, 맥북프로는 21세기 애플의 노트북 컴퓨터”라며 역사적으로 불가능한 사건이라고 ‘바르게’ 답변했다.

지피티4는 이처럼 챗지피티보다 정확도, 인지·추론능력이 크게 개선되었다. 대화메모리도 10배 이상 늘어나 맥락을 유지한 채 긴 대화를 할 수 있어 단편소설도 써낼 수 있다. 지피티4가 글자 아닌 다양한 형태로 대상을 인지할 수 있는 멀티모달(MultiModal) 기능을 탑재할지에 대한 관심도 높았다. 오픈에이아이는 발표에서 지피티4의 멀티모달 기능을 공개했다. 음식 재료가 보관된 냉장고 사진을 보여주면서 “이걸 갖고 어떤 음식을 만들 수 있어?” 질문하자, 지피티4는 가능한 요리와 간단한 조리법을 추천했다.

통합인지(멀티모달) 기능이란?

다양한 형태의 정보를 통합적으로 인지하는 기능(멀티모달)은 인간 인지의 특징이다. 사람은 ‘딸기’를 인지할 때 시각과 미각·촉각·텍스트를 동원하는 것은 물론이고 “비싼 유기농 딸기를 살까?”와 같은 추론·추상화·욕망 등 온갖 감각과 능력을 통합해낸다. 하지만 컴퓨터와 인공지능은 지금까지 특정한 한 영역에서만 뛰어나고 정확한 능력을 발휘해왔다.

2016년 3월 이세돌9단을 꺾은 알파고의 4-1 승리는 충격적이었지만, 알파고는 바둑판을 넘어서면 세 살배기에 한참 못미쳤다. 2011년 IBM의 인공지능 왓슨이 퀴즈프로그램 제퍼디에서 우승했을 때 미국의 철학자 존 설은 “왓슨은 제퍼디에서 자신이 이긴 줄도 몰랐다”고 지적했는데, 알파고 역시 마찬가지였다.

인공지능이 사진을 보고 의미를 식별하고 추론할 수 있다는 것은 사람의 통합 인지 기능에 다가간다는 점에서 큰 진전이다. 오픈에이아이가 2022년 4월 공개한 이미지 창작도구 달리2(DALL-E2)는 문장을 입력하면 그에 어울리는 이미지를 생성해낸다는 점에서 멀티모달 기능을 일부 구현했다. 오픈에이아이는 지피티4의 멀티모달 기능 시범을 소개했지만, 일반 서비스는 당분간 막혀 있다. 악용가능성에 대한 우려 때문이다.

이는 오픈에이아이가 2019년 2월 거대언어모델 기반 인공지능 지피티2 개발을 발표하면서 핵심인 자동문장생성 기능 서비스를 보류한 것과 비슷하다. 키워드나 문장을 입력하면 그럴듯한 문장을 만들어내는 기능이 가짜뉴스와 사기 등에 악용될 가능성에 대한 우려 때문이었다. 오픈에이아이는 9개월 뒤 이 기능을 공개했고, 이후 매개변수를 1000배 이상 확대한 지피티3을 개발했고 이를 기반으로 챗지피티를 서비스했다.

GPT4가 제시된 이미지를 바탕으로 추천한 요리들. 우유, 달걀, 밀가루, 크림 등이 있는 이미지로부터 팬케이크, 프렌치토스트, 오믈릿, 크레페, 케이크, 머핀, 빵, 비스킷, 푸딩, 커스터드 등이 가능하다고 답변했다. 오픈AI 제공

인공지능의 지능폭발

지피티4의 멀티모달 기능이 본격서비스된다면 또한번 인공지능의 충격이 닥칠 전망이다. <엠아이티(MIT) 테크놀로지리뷰>는 지피티4에 대해 “좋은 멀티모달 모델은 지난 몇 년간 인공지능 개발분야에서 성배와 같다”며 텍스트와 이미지를 결합한 인공지능은 세상을 더 잘 이해할 수 있게 된다고 보도했다.

이미 사람 목소리를 텍스트로 바꾸는 기능은 기기사용법의 혁신을 가져온, 대표적인 멀티모달 기능이다. 이미지를 이해하고 추론해 텍스트로 출력할 수 있게 되면 인공지능은 그야말로 ‘지능폭발’ 단계로 진입하게 된다. 유튜브와 인스타그램, 틱톡 등의 플랫폼에 올라 있는 방대한 영상 데이터를 학습해 추론할 수 있을 뿐 아니라, 자연계 등 물리적 세계를 지각하고 추론해 알려주는 기능을 수행할 수 있다.

국내 1세대 인공지능 연구자인 김진형 카이스트 명예교수는 “지피티4의 영상인식은 현재 한계가 뚜렷하지만 인공지능 개발에서 최고의 목표였던 멀티모달 기능에 대한 구체적인 접근계획을 세울 수 있게 한 성과로, 3~4년 뒤엔 엄청난 능력의 결과물이 나올 것으로 본다”고 평가했다.

라벨：

Last news：‘10년 넘게 일했는데…’ 챗GPT에 가장 취약한 직업군은?

Next news：국내 첫 민간로켓 시험발사체, 우주로 날아갔다

당신은 좋아할 수 있습니다