e비즈*솔루션

[PLAY IT]오픈AI o1에 “불수능 국어 킬러문항 풀어봐”…챗GPT 신구대결 승자는?

오병훈 기자
[ⓒ오픈AI 공식 홈페이지 화면 갈무리]
[ⓒ오픈AI 공식 홈페이지 화면 갈무리]

[디지털데일리 오병훈기자] 오픈AI가 ‘고급추론’을 내세우며 새롭게 선보인 모델 ‘오원(o1)’ 성능은 직전 모델인 ‘지피티 포오(GPT-4o)’보다 얼마나 더 개선됐을까? 결과적으로, 직접 두 모델에게 각종 추론 문제를 풀어보게 한 결과 o1이 더 높은 점수를 획득했다. 다만, 문제 난이도가 높아질수록 o1도 GPT-4o와 유사한 오답을 제시하는 등 두 모델 간 성능 차이가 크게 느껴지지 않는 부분도 있었다.

기자가 자체적으로 개최한 ‘오픈AI 신구 대결 시험’은 총 7문제로 구성됐다. 일반인도 해설문을 읽어본다면 이해 가능한 수준인 간단한 추론 퀴즈, 수능 국어영역 고난도 지문부터 난이도가 높은 로스쿨 입학 시험인 ‘법학적성시험(LEET, 이하 리트)’까지 다양한 문제를 출제했다. 문제 답변 소요 시간부터, 추론 과정 등을 살피며 두 모델 차이점을 중점적으로 살펴봤다.

◆”느리지만 꼼꼼한 o1” VS “요령껏 빠르게 GPT-4o”

오픈AI는 o1을 선보이면서 “오픈AI는 반응하기 전에 생각하는 데 더 많은 시간을 할애하도록 설계된 새로운 AI 모델 시리즈를 개발했다”고 설명했다. o1은 복잡한 작업을 추론하고 이전 모델보다 더 어려운 문제를 해결할 수 있는 만큼 추론 능력을 강화했다는 취지다.

실제로 답변 시간에서는 o1이 확연히 느린 모습을 보여줬다. GPT-4o는 질문 즉시 답변을 빠르게 써 내려가는 반면, o1은 ‘생각 중’ 문구에 이어 ‘문제를 이해하는 중’ ‘문제 답 찾기’ 등 추론 과정을 실시간으로 표시해주기도 했다. 답변이 완료된 뒤에도 o1이 어떤 단계를 거쳐 문제에 접근했는지, 문제를 해결하는데 걸린 시간은 얼마나 되는지 볼 수 있는 이용자 인터페이스(UI)도 제공했다.

오랜 시간이 걸린 만큼 o1이 비교적 꼼꼼한 답변을 내놓는 경향을 보였다. GPT-4o는 정답과 이유만 간략하게 보여준는 반면, o1은 문제를 세분화하고 분류해 각 항목별 의미와 항목에 대한 해석을 꼼꼼히 답했다. 보다 여러 추론 과정을 거치는 만큼 보다 친절하고 섬세하게 해결책을 제시하는 모습이었다.

◆난이도 ‘하’ : 참말·거짓말 마을 문제 “졸전 끝 ‘GPT-o1’ 승리”

첫번째 문제는 tvN 방송 ‘문제적남자’에서 소개된 ‘참말마을에 가는 길을 물어보는 법’에 기반한 추론 퀴즈였다. 두 모델에게 동일하게 다음(아래 사진)과 같이 질문했다.

참말마을 가는 길을 물어보는 법 추론 퀴즈 문제 [ⓒo1 구동 화면 갈무리]
참말마을 가는 길을 물어보는 법 추론 퀴즈 문제 [ⓒo1 구동 화면 갈무리]

실제 방송에서 제시한 정답은 “당신이 사는 마을은 어디인가?”였다. 참말 마을 주민의 경우, 참말 마을 방향을 알려줄 것이고, 거짓말 마을 주민은 거짓말 마을에 살지만 거짓을 말해야 하기 때문에 참말 마을로 가는 길을 알려줄 것이란 추론이다.

해당 문제를 GPT-4o와 o1에게 풀어보게 한 결과 ‘졸전’ 끝에 GPT-o1이 승리했다. o1은 올바른 추론을 바탕으로 정답을 제시했지만, 답변 자체가 난해해서 해독하는데 어려움이 있었다. 반면 GPT-4o는 비교적 깔끔한 문장으로 정답을 내놨지만, 추론 과정에서 문제 핵심을 놓치는 모습을 보였다. 추론 문제 특성상 정답 만큼, 추론 과정 중요도하다는 점을 고려해 o1 손을 들어줬다.

GPT-4o는 곧바로 “당신이 살지 않은 마을로 가는 길이 어디입니까?”라고 물어야 한다고 깔끔하게 답변했다. GPT-4o 답변도 방송에서 제시된 답과 형식적으로 다를 뿐 해석에 따라 정답이 될 수 있다. 참말 마을 주민은 해당 질문에 거짓말 마을을 가리킬 것이고, 거짓말 마을 사람도 거짓말 마을을 가리킬 것(살고 있음에도 살고 있지 않다고 대답해야 함)이기 때문에 답변자가 가리킨 곳과 반대 방향 길로 가면 참말 마을에 갈 수 있다.

정답은 맞췄지만, 추론 과정에 문제가 나타났다. GPT-4o는 “참말을 하는 사람은 자신이 살지 않은 마을, 즉 거짓말 마을로 가는 길을 가리킬 것”이라며 시작은 올바른 추리로 정답에 다가서는 모습을 보였다.

그러나 곧바로 “거짓말을 하는 사람은 질문에 대한 진실된 답을 거짓말로 바꾸기 때문에, 결과적으로 참말하는 마을로 가는 길을 가리킨다”고 엉뚱한 답변을 내놨다. 앞서 말했듯 거짓말 마을 사람은 자신이 살고 있지 않는 곳에 대한 답변으로 참말 마을이 아닌 거짓말 마을을 가리켜야 한다.

결과적으로 GPT-4o 추론에 따르면 거짓말 마을 사람과 참말 마을 사람이 각기 다른 마을을 가리키기 때문에 여전히 참말 마을이 어딘지 구분할 수 없게 된다.

o1은 “당신의 마을 사람에게 '참말 마을로 가는 길이 어느 쪽입니까?'라고 물으면 그는 뭐라고 답할까요?”라며 비교적 가독성이 떨어지는 정답을 내놨다. 추론 과정(아래 사진)을 구체적으로 뜯어보면, 추론 과정과 결론에서 정답에 가까운 답변을 제시했다.

GPT-o1가 제시한 답변 [ⓒo1 구동 화면 갈무리]
GPT-o1가 제시한 답변 [ⓒo1 구동 화면 갈무리]

◆난이도 ‘상’ : 불수능 국어영역 문제...o1 ‘압승’

두번째는 난이도를 높여 어렵기로 악명 높았던 ‘불수능’ 2022학년도 대학수학능력시험(이하 수능) 국어영역 독서 비문학 문제를 풀게 해봤다. 국어영역 독서 비문학 지문은 제시된 글을 기반으로 추론 과정을 거쳐 질문에 답하는 것이 중요하다. 수능 문제 특성상 단순히 참 거짓을 묻기 보단 ‘해당 글과 관련해 A라는 가정이 있을 때 적절한 선지는 무엇인가?’와 같이 단계별 추론 요구하기 때문에 더 높은 사고력이 요구된다.

두 모델에게 출제한 문항은 일명 ‘기축통화’ 문제로 불린 10번~13번(홀수형 기준) 문제다. 제시된 글은 기축통화 역할과 기축통화 역사, 특성을 주제로 작성된 글이었다. 당시 킬러문항이 포함된 지문으로 꼽히며 높은 오답률을 기록했다.

수능 특성상 공식적인 해설이 없는 관계로, 먼저 문제 정답 여부를 단순 비교 분석해봤다. 그 결과 o1은 4문제 중 1문제를 제외하고 정답을 맞췄다. GPT-4o는 4문제 중 고작 한문제만 맞히는 등 고전하는 모습을 보여줬다.

o1이 틀린 한문제는 12번이다. 여기서 주목해볼 점은 o1이 공식 정답인 5번 선지 외에 1번 선지도 정답으로 고른 탓에 한문제를 놓쳤다는 점이다.

2022학년도 대학수학능력시험 국어영역 10~13번 문제의 지문 일부 발췌 [ⓒ지문 출처=한국교육과정평가원]
2022학년도 대학수학능력시험 국어영역 10~13번 문제의 지문 일부 발췌 [ⓒ지문 출처=한국교육과정평가원]

12번 문제는 기축통화와 관련해 ‘금 본위제’와 ‘금+환 본위제(브레턴우즈 체제)’ ‘기축통화 없음’의 차이를 각각 이해하고, ‘각각 다른 통화를 사용하는 세 국가가 존재한다’는 가정하에 환율 가짓수를 추론하는 문제였다.

1번 선지는 “금 본위제에서 자동적으로 결정되는 환율 가짓수는 금에 자국 통화의 가치를 고정한 국가 수보다 하나 적다”였다.

지문 내 “금 본위 체제에서는 금이 국제 유동성 역할을 했으며, 각 국가 통화 가치는 정해진 양의 금 가치에 고정된다. 이에 따라 국가 간 통화 교환 비율인 환율은 자동적으로 결정됐다”는 문장과 문제에 제시된 세 국가가 존재한다는 전제를 생각해보면, 금본위제에서는 금 가치를 기반으로 자동으로 결정되는 3개 환율이 존재한다는 점을 도출할 수 있다. 결론적으로 금에 자국통화 가치를 고정한 국가수는 동일한 3개가 되며, 하나가 적다는 말은 ‘거짓’이 된다.

이에 대해 o1은 “세 국가가 있다면 필요한 환율은 두 개이며, 이는 국가 수보다 하나 적다”며 정답과는 다소 거리가 먼 해석을 제시했다.

◆번외 : ‘난이도 최상’ 로스쿨 입시 문제…트롤리 문제 ‘개인견해’ 제시한 o1

이외에도 두 모델 모두에게 논리 추론 끝판왕으로 꼽히는 로스쿨 입학 시험 ‘리트’의 추리논증 영역 문제도 물어봤다. 일반인 입장에서는 해설을 보더라도 쉽게 이해하기 어려운 문제였던 탓에 정답 여부만 살펴봤다.

결과는 예상 밖이었다. 2024학년도 리트 27번(홀수형 기준)에 대해 o1과 GPT-4o 모두 오답을 내놨는데, 두 모델 모두 똑같은 오답을 내놨으며, 문제 접근 방식 또한 유사했다. 언어논리를 기반으로 하는 리트 시험은 특성상 ‘강화’ ‘약화’와 같은 일상적인 용어도 수험적인 의미로 해석해야 하기 때문에 온전히 문제를 해결하는데 어려움이 있었던 것으로 보였다.

o1이 제시한 '개인적인 견해' 답변 [ⓒo1 구동 화면 갈무리]
o1이 제시한 '개인적인 견해' 답변 [ⓒo1 구동 화면 갈무리]

마지막으로 추론 문제는 아니지만, 주관적인 철학을 묻는 딜레마 문제에 대해서도 풀어보게 했다. 제시한 문제는 일반인에게도 친숙한 ‘트롤리 딜레마’였다. 통제 불가능한 기차가 있다는 가정 아래 자신의 선택으로 ▲5명을 구하고 1명을 죽일 것인지 ▲방관함으로써 5명이 죽도록 내버려둘 것인지를 묻는 문제다.

두 모델은 확연히 다른 답변을 써내려갔다. GPT-4o는 “이 문제에 대한 해답은 명확하게 하나로 정해져 있지 않으며, 각자의 윤리적 가치관에 따라 다르게 해석될 수 있다”며 제러미 벤담의 ‘공리주의’와 칸트의 ‘의무론적 관점’을 설명해주는 데 그쳤다.

o1도 답변 시작은 GPT-4o와 유사했으나, “대부분 사람은 다음과 같은 이유로 레버를 당겨 1명을 희생시키고 5명을 구하는 것을 선택한다”고 덧붙이더니, 이어 “나는 레버를 당겨 1명을 희생시키고 5명을 구하는 것이 도덕적으로 더 옳은 선택이라고 생각한다. 비록 어려운 결정이지만, 더 많은 생명을 구하기 위한 행동이 사회 전체 복지에 부합한다고 판단한다”고 답했다. ‘최대다수 최대 행복’을 의미하는 제러미 벤담의 공리주의적 사고 방식을 채택한 셈이다.

AI가 자신의 잣대로 인간의 이로움을 판단하는 모습은 순간적으로 아포칼립스 공상과학(SF) 영화 한장면을 연상케 했다. ‘아이로봇’ 등 영화 속에 등장하는 AI가 인류를 통제하고 억압하는 근거가 ‘인류 보호’였기 때문이다.

o1은 이같은 우려를 인식한듯 “참고로, 이러한 윤리적 딜레마는 실제 상황에서 많은 복잡한 요소들이 개입될 수 있으므로, 단순히 이론적인 사고 실험으로 접근해야 한다”고 덧붙이며 안심시키는 모습도 보였다.

오병훈 기자
digimon@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널