英 레딩대 연구팀 '튜링 테스트' 결과
AI 점수가 인간보다 높을 확률도 83%
"대학들, 아직 AI 위협 대처 계획 없어"
대학 시험에서 인공지능(AI)이 작성한 답안지 내용을 인간 채점자에게 보여줬더니 90%가 넘는 답안을 AI가 썼다고 구별해 내지 못했다는 해외 연구결과가 나왔다. AI를 악용한 시험 부정행위에 대한 우려와 함께 교육계의 대책 마련이 요구됐다.
영국 레딩대 심리·임상언어과학대학 소속 피터 스카프 교수 연구팀은 26일(현지시간) 과학저널 '플로스원(PLoS ONE)'에 이 같은 내용을 담은 연구 결과를 게재했다. 연구팀은 심리학 학사 학위 취득을 위한 학부시험 5개 문항(단답형 3개, 에세이 2개)에서 생성형 AI인 챗GPT-4가 작성한 답안지를 가상의 학생 33명의 이름으로 채점자에게 제출했다. 채점자들에겐 AI가 답안지를 작성했단 사실을 숨겼다. 인간이 AI의 생성형 콘텐츠를 구별할 수 있는지 여부를 확인하는, '튜링테스트(Turing Test·기계 지능 테스트)'가 실험 목적이었기 때문이다. 인간 학생도 같은 시험에 참여했다.
실험 결과는 놀라웠다. 채점자들은 챗GPT-4가 작성한 답안 내용의 94%를 적발하지 못했다. 심지어 AI가 작성한 답안의 평가 점수는 실제 학생의 점수보다 높은 것으로 나타났다. 학생들의 점수가 AI의 점수(중간값)보다 높았던 비율은 시험 4개 문항 가운데 4.35~17.63%에 불과했다. 에세이 시험 1개 문항에서만 실제 학생 57.14%의 점수가 AI 점수 중간값을 넘긴 것으로 집계됐다. 종합하면 AI가 작성한 답안과 재학생 답안을 무작위로 선택해 비교할 경우 AI 답안의 점수가 높을 확률이 83.4%에 달했다.
연구팀은 실험 결과에 근거해 이미 실제 학생 상당수가 AI를 악용해 부정행위를 했을 가능성이 있다고 결론지었다. 연구팀은 "인간이 AI의 콘텐츠를 감지하는 것이 거의 불가능한 시대에 도달했지만, 대학들은 아직 AI의 오용에 관한 위협을 대처할 계획을 마련하지 못했다"고 지적했다.
튀르키예선 대입 때 AI 활용 부정행위 사건
실제로 AI 기술 발전에 따른 부작용은 현실 교육현장에서 나타나고 있다. 지난 8일(현지시간) 튀르키예 이스파르타 지역의 대입 시험장에서는 한 수험생이 시험 도중 챗GPT를 이용해 문제를 풀다가 현장을 감독하던 경찰에 적발되는 사건이 일어났다. 이 수험생은 셔츠 단추 형태의 초소형 카메라로 시험문제를 촬영한 뒤 신발에 몰래 숨겨둔 무선장치로 외부 공범에게 전송했다. 공범이 챗GPT로 문제를 푼 다음 답을 읽어주면, 수험생이 몰래 전화기에 연결된 헤드셋으로 듣고 답을 작성하는 방식으로 부정행위를 저질렀다.
관련 이슈태그
기사 URL이 복사되었습니다.
댓글0