Sep 20th Journal Club

Themes:Human–AI collaboration, Empathic Conversation, Peer Support

Presenters: SL(Soryoo Lee), GK(Gyuyi Kang), SO(Serin Oh), CL(Chunghyun Lee)


Topic 1: Proposal [SL]

Topic 2: Proposal [GK]

Topic 3: Using Large Language Models to Simulate Multiple Humans and Replicate Human Subject Studies [SO]

선정 이유

LLM의 성능이 언어적 유창성에만 국한되지 않고 다방면으로 탐색되는 가운데, 밀그램 실험 등 사람을 대상으로 이루어진 기존의 사회과학 실험을 LLM에 적용하였을 때 실제 결과와 유사하게 replicate된다는 논지가 인상적이어서 선정하였다.

내용 요약

본 연구에서는 GPT text model을 비롯한 LLM이 인간의 행동 방식을 simulate할 수 있는지 알아보는 실험을 설계하여 이를 Turing Experiment (TE)라고 정의하였다. TE는 사회심리학, 언어학, 행동경제학 등 다양한 인간 대상 학문의 과제를 포함하고, zero-shot으로 시행되어야 하며 participant의 나이와 성별 등 인구 통계학적 정보까지 입력하도록 구상되었다.

첫 번째 TE인 Ultimate Game TE에서, 거대언어모델은 인간의 경향성과 비슷한 결과를 도출하였으며, 성별에 따라서도 다른 선택을 하였다. 예를 들어, 남성 이름을 가진 가상의 참가자는 여성에 의하여 불공정한 제안이 들어 왔을 때 그것을 승낙할 가능성이 높았고, 그 반대는 아니었다. 이러한 성별 차이는 실제 인간 대상 최후통첩 게임에서도 보고된 바 있는 만큼, 본 과제에서는 LLM이 유의미하게 인간 행동을 모사한다고 볼 수 있다.

두 번째 TE는 Garden Path Sentences TE였다. LLM은 사람이 한번에 손쉽게 이해하지 못할 뿐더러 다 읽고 난 후에도 종종 의미 해석에 어려움을 겪는 garden path sentence가 주어졌을 때도 그 결과를 훌륭하게 구현했다.

세 번째 TE인 Milgram Shock TE는 사회심리학에서 저명한 실험으로, 본 과제에서는 실험 참가자가 프로토콜을 따를 때 가짜 피실험자를 대상으로 어떠한 반응을 보일지, 실험 참여자의 태도와 그것을 기록하는 실험자 모두를 simulate하도록 지도하였다. 그 결과, 특정 구간에서 실험 참여 LLM의 복종 수준이 대폭 줄어드는 것이 관찰되었는데 이는 인간의 결과와 거의 일치하는 지점이었다.

마지막으로, Wisdom of Crowds TE에서는 LLM의 정답률이 매우 높았다. 이는 인간의 결과와 비교했을 때 비정상적으로 정확한 수준으로, 이는 hypter-accuracy distortion을 보였다고 결론지을 수 있다.

한계점

논문에서 잠시 언급되었듯, 이미 LLM이 학습된 데이터셋이 많은 만큼 기존의 학습 데이터셋에 의하여 현재의 결과가 사람과 유사한 쪽으로 나왔을 가능성을 배제하기 어렵다. 이러한 데이터셋의 영향을 최소화하기 위하여 밀그램 실험 등에서 그 원문을 그대로 사용하기보다는 조금씩 각색하여 사용하기는 하였으나, 그 뼈대 자체는 고유하므로 연구진들이 의도한 대로 LLM 대상의 과제 내용이 작성되었는지는 의문할 필요가 있다.

의의

최근에는 LLM이 그럴 듯한 ‘말’을 하는 데서 그치지 않고, 마음 이론 등 사람의 고유한 것이라고 간주되었던 능력 또한 어느 지점 갖추고 있다는 연구가 나오고 있다. 이러한 동향을 생각해 보았을 때, 여러 방면의 사회과학 실험을 차용하여 LLM의 simulation 능력을 확인하였다는 점에서 본 연구는 LLM 역량의 확장 가능성을 시사하였다는 의의를 갖는다. 가상의 참가자 정보를 입력할 때, 단순히 획일화된 개인을 넣은 것이 아니라 나이와 성별 등 인구통계학적 요소를 입력하여 성차까지 살펴본 사항 또한 개인 차 연구가 주목되는 현재 시류에 걸맞다.

이처럼 LLM이 충분히 인간의 행동을 모사한다는 것이 지속하여 입증된다면, 사람을 대상으로 하기 어려운 실험을 시행해보거나 LLM Agent의 개념으로 발전시켜, 연구의 논리적 가설이나 프레임워크를 세우는 데 혁혁한 기여를 할 것으로 기대한다.

참고 문헌

Aher, G. V., Arriaga, R. I., & Kalai, A. T. (2023, July). Using large language models to simulate multiple humans and replicate human subject studies. In International Conference on Machine Learning (pp. 337-371). PMLR.

Topic 4: A preliminary investigation into the efficacy of training soccer heading in immersive virtual reality [CL]

선정 이유

VR을 활용하여 축구의 수행능력을 향상시킬 수 있다는 점이 흥미로웠습니다.

내용 요약

축구선수들이 공을 머리로 헤딩하는 것은 뇌에 데미지를 축적시켜 퇴행성 신경질환을 일으키는 것으로 알려져 있다. 이에 따라 축구협회들은 선수들을 보호하기 위해 헤딩 훈련에 제한을 두고 있지만 헤딩은 경기의 중요한 부분이기에 딜레마가 생긴다. 이 문제를 해결하기 위해 저자들은 VR 헤딩 시뮬레이션을 활용하면 머리에 충격을 가하지 않고도 헤딩 능력을 향상시킬 수 있을 것이라는 가설을 세운다. 실험 결과, VR로 훈련한 집단은 통제 집단에 비해 헤딩으로 더 많은 골을 넣었지만 헤딩의 정확도에는 유의미한 차이가 없었다.

한계점(선택)

시뮬레이션 훈련을 통한 지각적/인지적 능력 향상에 의한 결과인지, 자심감과 자기효능감 향상에 의한 결과인지 구분하기 어렵다. 골의 수는 유의미하게 증가했지만 정확도에는 차이가 없었기에, 공을 머리에 맞추기 위한 타이밍은 어느정도 잘 아는 프로 축구선수들에게 큰 효과를 가져다 줄지 의문이다.

의의

VR을 활용하면 건강에도 지장을 주지 않으면서 다른 선수나 코치의 도움 없이도 헤딩 훈련을 할 수 있다.

비고

참고 문헌