Nov 22th Journal Club

Themes:Human–AI collaboration, Empathic Conversation, Peer Support

Presenters: SL(Soryoo Lee), SO(Serin Oh), IL(Inju Lee)


Topic 1: Characterizing Empathy and Compassion Using Computational Linguistic Analysis [IL]

선정 이유

텍스트 데이터를 이용해 공감과 연민의 특징을 파악하는 것이 흥미로워 읽어보았음

내용 요약

도덕성 및 친사회적 행동을 유발하는 원인이 무엇인지에 대한 논쟁이 존재한다. 첫번째 접근법은 관찰자가 대상의 부정적인 상태를 볼 때 똑같은 부정적 상태를 느끼게 되며, 관찰자는 이를 해결하고자 대상의 부정적인 상태를 감소시키는 행동, 즉 친사회적 행동을 하게 된다고 설명한다. 반면, 두번째 접근법은 대상의 부정적인 상태를 볼 때 느끼는 연민의 감정이 대상을 돕는 친사회적 행동을 유발한다고 설명한다.

본 논문의 저자들은 공감은 자신에게 초점을 맞추는 (self-focused) 과정인 반면, 연민은 타인에게 초점을 맞추는 (other-focused) 과정이라고 제안한다. 이를 검증하기 위해, 공감 능력이 높은 사람과 연민 능력이 높은 사람이 작성한 텍스트에서 어떠한 차이가 나타나는지 확인하였다. 약 3000명의 참여자들을 모집하여, 참여자의 특성적 공감 및 연민 수준과 친사회적 행동 수준을 측정하고, 참여자들이 작성한 페이스북 포스트들을 분석하였다. 분석을 위해 LIWC와 Differential Language Analysis를 이용했다.

공감 능력이 높은 사람 (연민 능력을 통제) 은 자신에게 초점을 맞추는 (self-focused) 언어를 많이 사용하며, 부정적 감정, 사회적 고립, 압도됨 (overwhelmed) 의 감정에 대해 많이 작성하였다. 연민 능력이 높은 사람 (공감 능력을 통제) 은 타인에게 초점을 맞추는 (other-focused) 언어를 많이 사용하며, 긍정적 감정과 사회적 연결에 관한 내용을 많이 작성하였다. 공감 능력이 높은 사람 (연민 능력을 통제) 보다 연민 능력이 높은 사람이 (공감 능력을 통제) 친사회적 행동을 많이 하는 것으로 나타났다.

이러한 결과를 바탕으로, 본 논문은 도덕성 및 친사회적 행동을 유발하는 원인은 연민 능력일 가능성이 높다고 제안한다.

의의

공감과 연민을 분리해, 그 특성을 파악한 논문이라는 점에서 의의가 있다. 또한 통제되지 않은, 자연스러운 상황에서 작성된 참여자들의 텍스트 데이터를 이용했다는 점 또한 흥미롭다.

비고

본 논문의 저자들이 말하는 공감이 “정서적 공감”에 가까운 것을 유의하여 논문의 내용을 이해할 필요가 있다.

참고 문헌

Yaden, D. B., Giorgi, S., Jordan, M., Buffone, A., Eichstaedt, J. C., Schwartz, H. A., … & Bloom, P. (2024). Characterizing empathy and compassion using computational linguistic analysis. Emotion, 24(1), 106.

Topic 2: Believing Anthropomorphism: Examining the Role of Anthropomorphic Cues on Trust in LLMs [SO]

선정 이유

LLM을 어떻게 manipulate하는지에 따라 그것을 이용하는 사람의 LLM 의인화 수준이나 신뢰가 어떻게 달라지는지 탐색하려고 시도하였고, 구글 리서치 팀에서 2,000명 안팎의 사람들이 응답한 연구인 만큼 사람이 LLM을 인식하는 방법에 대한 인사이트를 제공해줄 듯해 선정하였다.

내용 요약

해당 연구에서는 참가자들에게 pseudo-LLM을 LLM이라고 소개하며 pseudo-LLM의 modality(text only, speech+text)와 인칭 대명사(“I”, “the system”)의 2by2 조건에 무선할당하였다. 그를 기반으로 연구자들은 사람들이 조건에 따라 LLM을 얼마나 의인화하는지, 그리고 그것이 LLM이 주는 정보에 대한 신뢰에 어떠한 영향을 미치는지 살펴보았다.

그 결과, 인칭 대명사 조건은 의인화 점수에 영향을 미치지 않았으며, speech+text 조건에서만 유의미하게 높은 의인화 점수가 보고되었다. 설문 참여자가 LLM에 보이는 trust 또한 조건에 따른 차이는 없었으나, 의인화 점수가 높을수록 더 신뢰할 만하다고 보았다는 분석은 가능하였다.

기존에 설정한 조건 외에 연구에서 사용된 시나리오 영역에 대한 추가 분석을 시행하였을 때, trust와 관련된 3개 도메인인 Perceived Accuracy, Perceived Risk, Follow-up Validation에서 시나리오별 유의미한 점수 차이가 났다. 즉, 어떠한 영역의 대화였는지에 따라 개인이 LLM에게 가지는 인상이 상이했던 셈이다.

한계점

연구자들이 사전에 설정했던 조건에 따른 차이가 두드러지지 않았으며, 이에 대한 별다른 해석을 제시하지 않는다는 점이 아쉽다.

또한, Appendix를 확인하면, 인칭 대명사 조건은 pseudo-LLM의 모든 문장 형식을 고정한 채 첫 문장의 인칭 대명사만 다른 것으로 설정되었다. 이를 고려하자면 설문이 거듭될수록 참여자들이 주요 정보가 뒷 문장에만 나온다는 것을 알아차리고 인칭 대명사가 들어간 첫 문장에 주의를 두지 않아, 연구자들의 의도대로 실험이 진행되지 않았을 가능성이 높다. 또한, 이때의 대화는 1 turn으로 진행되어 실제 상호작용과는 거리가 멀다는 점도 한계로 보인다.

다만, 의인화 점수를 수집하기 위해 사용된 척도가 엄밀하지 않은 척도라는 지적도 있었다는 점을 고려하자면 실험에서 설정한 종속변인 자체가 제대로 측정되었는지도 의문할 필요가 있다.

의의

여러 modality를 이용한 LLM에 대한 관심이 급증하는 요즈음, LLM에 대한 의인화와 신뢰를 주제로 굉장히 많은 사람들을 대상으로 연구를 진행하였고, trust와 관련된 요인을 3개로 나누어 세부적으로 살펴보았다는 데서 의의가 있다.

더불어 실험에서 사용된 대화 주제/영역이 5개로, 비교적 많은 수이고, trust의 여러 요인별로 시나리오에 따른 차이가 났다는 점을 감안해 사람들이 대화 도메인에 따라 달성하고자 하는 바가 다를 수 있다는 가능성 또한 시사한다.

참고 문헌

Cohn, M., Pushkarna, M., Olanubi, G. O., Moran, J. M., Padgett, D., Mengesha, Z., & Heldreth, C. (2024, May). Believing Anthropomorphism: Examining the Role of Anthropomorphic Cues on Trust in Large Language Models. In Extended Abstracts of the CHI Conference on Human Factors in Computing Systems (pp. 1-15).

Topic 3: A Computational Framework for Behavioral Assessment of LLM Therapists [CL]

LLM, LLM behavior, computational framework, Motivational Interviewing

선정 이유

LLM 상담챗봇의 행동이 실제 상담사와 어떻게 비교되는지 보기 위해 이 논문을 선정하였다.

내용 요약

연구자들은 LLM 상담챗봇의 행동을 분석하기 위해 BOLT라는 computational framework를 사용하였다. 우선, LLM에게 prompting을 통해 상담사 역할을 취하라고 한 뒤, 실제 상담 대화 데이터를 기반으로 비슷하지만 새로운 대화를 생성하게 하였다. 그 후, 새롭게 생성된 상담사 행동과 내담자 행동은 그 성격에 따라 분류되고, 실제 상담사의 데이터와 비교된다.

한계점(선택)

2-3문장 내외 (선행 연구와 비교, 이해가 어려운 부분 등)

의의

5-6문장 내외 (학술적, 사회적 기여)

비고

참고 자료 소개 (해당시), 추가 코멘트(해당시)

참고 문헌

Chiu, Y. Y., Sharma, A., Lin, I. W., & Althoff, T. (2024). A computational framework for behavioral assessment of llm therapists. arXiv preprint arXiv:2401.00820.