May 7th Journal Club

Presenters: HL(Hyunjoo Lee), SL(Sunghyun Lee), CL(Chunghyun Lee)


Topic 1: A surprise induced by a visual-haptic illusion in virtual reality can lead to motor improvement [HL]

Work in Progress

Topic 2: Virtual Reality Improves Emotional but Not Cognitive Empathy: A Meta-Analysis [SL]

Work in Progress

Topic 3: Can LLMs Reason Like Humans? Assessing Theory of Mind Reasoning in LLMs for Open-Ended Questions [CL]

선정 이유

LLM은 아직까지 사람의 Theory of Mind 추론 능력을 따라가지 못하고 있지만 프롬프팅 기법을 통해 어느정도 보완이 될 수 있는 것으로 알려져 있다. 구체적으로 어떠한 프롬프팅 기법으로 이 능력을 향상시킬 수 있는지 알아보고자 본 논문을 선정하였다.

내용 요약

Reddit에서 개방형 질문들과 질문 당 유저 답변 5개씩 가져와 LLM의 답변들(baseline/mental state prompting)과 비교하였다. Human based evaluation에서는 reasoning correctness를 기준으로 사람이 비교평가하였고, metric based evaluation에서는 ROUGE-L, BLUERT, BERTScore, MoverScore을 지표로 평가하였다. Mental state prompting을 위해 질문들의 sentiment, 정서, 의도를 추출하는 과정에서 ROBERTa base 모델과 DistilBERT 모델, Named Entity Recognition (NER) 기법을 사용하였다. 두 평가방법에서 모두 LLM의 baseline 답변들은 사람의 답변에 미치지 못하는 추론 능력을 보여줬으며, mental state prompting이 추가된 답변들 또한 부족하지만 6~9% 나아진 답변들을 보여줬다.

한계점(선택)

개방형 질문의 특성상 주관성이 개입되어 다양한 답변들이 가능했기에, 질문 당 5개의 답변만으로는 가능한 모든 논리적 답변을 포괄하지 못했을 수 있다는 한계점을 보인다. Reddit의 개방형 질문들과 사람들의 답안을 일반 population에 일반화하였다는 한계점을 지닌다.

의의

본 연구는 GPT, Llama, Zephyr의 zero shot ToM Reasoning 능력이 개방형 질문을 마주할 때 아직 사람의 능력을 따라가지 못한다는 것을 확인하였다. 하지만 질문자의 의도, 정서, sentiment 등의 mental state에 대한 프롬프팅을 추가하면 이 능력이 소폭 향상한다는 것 또한 확인하였다. 개방형 질문의 특성상 주관성이 개입되어 다양한 답안이 허용되었기에 사람과 LLM의 답변이 더 다른 것처럼 보였을 수 있다는 점을 감안하면, 프롬프팅을 통해 LLM의 답안이 사람의 답안과 유사하게 생성될 가능성도 바라볼 수 있다.

참고 문헌

Amirizaniani, M., Martin, E., Sivachenko, M., Mashhadi, A., & Shah, C. (2024, October). Can llms reason like humans? assessing theory of mind reasoning in llms for open-ended questions. In Proceedings of the 33rd ACM International Conference on Information and Knowledge Management (pp. 34-44).