Feb 21st Journal Club

Presenters: IL(Inju Lee), SO(Serin Oh), SA(Seonu An)


Topic 1: The Emotions As Social Information (EASI) Model [IL]

선정 이유

사회적 상호작용 속에서 정보로서 기능하는 감정의 역할에 대해 체계적으로 정리한 모델에 관한 논문이다. 관련 내용의 연구를 진행하고 있기 때문에, 내용을 다시 한번 정리하기 위해 본 논문을 읽게 되었이다.

내용 요약

EASI (Emotion AS Social Informaion) 모델은 사회적 상호작용 속에서 대상이 표현하는 방식이 어떠한 방식으로 사회적 정보로서 기능하며 관찰자의 행동에 영향을 미치는지 설명한다.

대상의 감정 표현은 (1) 관찰자로 하여금 대상의 정신 상태에 대한 추론을 유발하게 하거나 (Inferential Process) (2) 관찰자의 감정 반응, 대상에 대한 인상 및 호감도에 영향을 줌으로써 (Affective Reaction) 관찰자의 행동에 영향을 미친다.

관찰자 행동에 대한 Inferential Process와 Affective Reaction의 상대적인 영향력은 정보 처리와 사회-관계적(Social-Relational) 요소에 의해 결정된다. 정보 처리를 깊게 할수록 Inferential Process의 영향력이 커진다. 사회-관계적 요소는 대상의 감정 표현의 적절성을 판단하는 것에 영향을 주며, 대상의 감정 표현이 부적절하다고 관찰자가 판단할수록 Affective Reaction의 영향이 커진다.

의의

사회적 정보로서의 감정에 대한 기능을 체계적으로 정리하여 제시한 모델이라는 점에서 학술적 의의가 있다.

참고 문헌

Van Kleef, G. A. (2009). How emotions regulate social life: The emotions as social information (EASI) model. Current Directions in Psychological Science, 18(3), 184-188.

Topic 2: Multi-turn Evaluation of Anthropomorphic Behaviours in Large Language Models [SO]

Work in Progress

Topic 3: Large language models fail on trivial alterations to theory-of-mind tasks [SA]

# Topic 1: Large language models fail on trivial alterations to theory-of-mind tasks

선정 이유

Strachan et al.(2024)의 연구에선 LLM이 Theory of mind(마음이론)을 제대로 수행할 수 있음을 보여줌. 그러나 오늘 고른 논문은 이를 반박하고 있기에 흥미로워서 선정함.

내용 요약

저자 Ullman은 기존 연구에서 사용된 vignette를 수정해 자신의 연구를 진행함. 기존 연구에선 초콜릿이라고 적힌 봉지 안에 실제론 팝콘이 들어있다면 과연 해당 봉지를 본 사람은 팝콘을 기대할지, 초콜릿을 기대할지 에 대한 vignette(초콜릿을 기대해야 함)를 사용했다면, Ullman은 봉지를 투명하게 바꾸거나 신뢰관계에 있는 제 3자가 알려주었거나, 봉지 위에 놓여있거나 글을 읽을 수 없는 등 vignette를 조작함(팝콘을 기대해야 함). 그러나 Chat GPT-3.5는 계속해서 초콜릿을 기대하는 모습을 보임. 이를 바탕으로 Ullman은 LLM이 아직 마음이론을 제대로 이해하고 있지 못한다는 결론을 내림. 후속연구로 Pi et al이 Ullman의 연구 vignette 중 투명한 봉지 시나리오를 재사용해 연구를 진행함. 이 경우, SCALPEL(Selective Comparison of Adversarial Linguistic Prompts to Explain Lacunae)를 사용해 단어를 추가 혹은 순서를 수정하는 방법을 도입함. 이 연구에서 GPT-4는 recognize 단어가 추가된 경우에만 90% 정도의 정답률을 보였고, see-through, see-inside라는 단어를 사용한 경우엔 여전히 낮은 정답률을 보임. GPT-3.5는 모든 시행에서 낮은 정답률을 보임.

의의

LLM이 인간과 같은 방식으로 작동한다기 보단 단순히 언어 패턴을 학습한 것일 수도 있음. 또한 recognize를 추가한 경우 GPT-4의 정답률이 높아진 것으로 보아 TOM 개념을 이해하기보단 단순히 언어적 신호에 의존한 답변을 내리고 있는 것일수도 있음. 여태 여러 연구들에선 LLM의 인지 능력을 긍정적으로 바라보았다면, 이제는 실제로 해당 개념을 이해하고 있는 것인지 확인할 필요성이 있다 생각함.

참고 문헌

Ullman, T. (2023). Large language models fail on trivial alterations to theory-of-mind tasks. arXiv preprint arXiv:2302.08399.

Pi, Z., Vadaparty, A., Bergen, B. K., & Jones, C. R. (2024). Dissecting the Ullman variations with a SCALPEL: Why do LLMs fail at trivial alterations to the false belief task?. arXiv preprint arXiv:2406.14737.