“GPT-4급 정확도”...UNIST, 손글씨 수학 채점 AI ‘베미’ 개발

2025.12.18 09:57:54

이창현 기자 atided@hellot.net

 

삐뚤빼뚤한 손글씨로 작성된 수학 답안을 사람처럼 채점하고, 풀이 과정의 오류까지 짚어주는 인공지능(AI) 모델이 개발됐다. UNIST 인공지능대학원 김태환 교수와 POSTECH 고성안 교수 연구팀은 손글씨 수학 답안을 자동으로 평가하는 AI 모델 ‘베미(VEHME, Vision-Language Model for Evaluating Handwritten Mathematics Expressions)’를 개발했다고 17일 밝혔다.

 

주관식 수학 문제 채점은 교육 현장에서 가장 많은 시간이 소요되는 업무 중 하나로 꼽힌다. 수식과 그래프, 도형이 혼합된 답안 구조와 학생마다 다른 필체, 배치 방식 때문에 이를 자동화하는 데에는 기술적 한계가 있었다. AI가 손글씨 수식을 정확히 인식하고 풀이 과정의 오류를 판단하기가 쉽지 않았기 때문이다.

 

연구팀이 개발한 베미는 사람이 풀이 과정을 따라가듯 수식의 위치와 문맥을 함께 이해해 채점을 수행한다. 단순히 정답 여부를 판단하는 데 그치지 않고, 풀이 과정 중 어느 단계에서 어떤 오류가 발생했는지도 함께 분석할 수 있다.

 

 

연구진이 미적분부터 초등학교 산수 수준까지 다양한 손글씨 수학 답안을 대상으로 성능을 검증한 결과, 베미는 경량 모델임에도 불구하고 GPT-4o, 제미나이 2.0 Flash와 유사한 채점 정확도를 보였다.

 

특히 답안이 크게 회전돼 있거나 필체가 매우 불분명한 고난도 사례에서는 상용 거대 모델보다 오류 위치를 더 정확히 찾아냈다. 베미는 약 70억 개의 매개변수를 사용하는 반면, GPT나 제미나이 계열 모델은 수천억 개 이상의 매개변수를 사용하는 것으로 알려져 있다.

 

이 같은 성능은 연구팀이 자체 개발한 수식 인식 시각 프롬프트(EVPM) 기술과 이중 학습 기법을 통해 구현됐다. EVPM은 복잡하게 배열된 수식 위에 가상의 박스를 설정해 AI가 풀이 순서를 놓치지 않도록 돕는다.

 

또한 2단계 강화학습을 적용해 정답 여부뿐 아니라 풀이 과정에서의 오류 원인까지 설명할 수 있도록 했다. 여기에 정교한 손글씨·첨삭 데이터가 부족한 한계를 보완하기 위해 거대 언어 모델(QwQ-32B)을 활용해 합성 데이터를 생성·학습에 활용했다. 베미는 오픈 소스 모델로 공개돼 학교나 학원 등 교육기관에서 무료로 활용할 수 있다.

 

김태환 교수는 “손글씨 수학 채점은 이미지와 언어를 동시에 이해해야 하는 멀티모달 AI의 대표적인 난제”라며 “베미는 복잡한 풀이 구조를 단계별로 추론해 실제 교육 현장에서 활용 가능한 수준의 안정성과 효율성을 확보했다는 점에서 의미가 크다”고 밝혔다.

 

이어 “EVPM 모듈은 교육 분야뿐 아니라 문서 인식, 설계 도면 분석, 수기 기록물 디지털화 등 다양한 산업 분야의 멀티모달 추론 모델에도 적용 가능할 것”이라고 말했다.

 

이번 연구는 과학기술정보통신부 한국연구재단과 정보통신기획평가원의 지원을 받아 수행됐으며, 연구 결과는 자연어처리 분야 국제학회인 EMNLP(Empirical Methods in Natural Language Processing) 정식 논문으로 채택됐다. EMNLP 2025는 11월 5일부터 9일까지 중국 쑤저우에서 열렸다.

 

헬로티 이창현 기자 |

Copyright ⓒ 첨단 & Hellot.net






검색