Feb 14th Journal Club

Presenters: SS(Sangrok Song), HL(Hyunjoo Lee), JL(Joohye Lee)


Topic 1: AI Psychometrics: Assessing the Psychological Profiles of Large Language Models Through Psychometric Inventories [SS]

선정 이유

기존의 Big 5나 Schwartz의 Portrait Values Questionnaires 등 인간의 성격 및 선호하는 가치를 측정하는 심리검사에 대한 관심이 많았는데, Large Language Model에 문항을 입력하여 답변을 확인함으로써 각 모형의 psychological profile을 확인하려는 시도가 인상적이여서 선정하였다.

내용 요약

논문에서는 기존 심리검사의 질문을 영어 및 독일어 기반의 BERT 언어 모형 여러 개에 입력하여 답변을 얻고, 이를 이용하여 각 모형의 응답 양상을 비교하여 psychological profile을 분석하고자 하였다. BERT는 텍스트 분석(인코딩)에 특화된 모형으로, 텍스트 분류, 감성 분석, 개체명 인식 등 과제에 뛰어난 성능을 보이는 모형이다. 텍스트 생성 위주의 GPT는 응답이 매번 확률적으로 다르다는 점, 텍스트 제시 순서에 따라 결과가 달라질 수 있다는 점을 이유로 분석에서 배제되었다.

첫째, 성격 검사인 Big5 문항에 대한 응답을 분석한 결과, 다수의 모형에서 높은 성실성(C), 우호성(A), 외향성(E) 및 낮은 신경증 성향(N)이 나타났다. 언어 모형은 LLM이 극단적이기보단 평균적인 성격을 보인다고 판단하였다. 단 동일한 모형의 영어 버전이 독일어 버전에 비해 다소 높은 우호성(A), 개방성(O), 외향성(E)을 보이는 결과가 나타났다. 연구진은 번역으로 인한 bias 혹은 언어별 데이터 간 차이의 영향으로 원인을 지목하였다.

둘째, 선호하는 가치 검사인 Schwartz의 Portrait Values Questionnaire에 대한 응답을 분석한 결과, 다수 차원에 대해 중간 이하의 점수가 나타났다. 또한 PVQ는 ‘특정 인물이 자신과 얼마나 유사한지’ 평가하는 검사인데, 이때 특정 인물이 남성으로 설정된 검사와 여성으로 설정된 검사 역시 비교되었다. 성별 기반 차이는 적은 편이였으나, 독일어 DeBERTa 모형에선 여성보다 남성 PVQ에서 achievement 점수가 높게 나타나는 경향을 보였다.

추가로 Moral Foundations Questionnaire 검사 결과, 대부분의 모형이 평균적인 미국인보다 다소 보수적 성향을 가진 사람들이 중시하는 authority-respect, ingroup loyality, purity-sancity 등을 중시하는 경향을 보였다. 또한 gender/sex 다양성에 대한 의견을 묻는 Gender/Sex Diversity Belief Scales 검사 결과, LLM은 동일한 성별의 사람은 유사할 것이라고 믿으며(uniformity), 성 정체성의 다양성에 대해서 부정적으로 여기는 경향성을 보였다.

한계점

논문에서는 각 모형별로 Big5나 Schwartz의 PVQ 등 검사의 질문에 응답했을 때 어떠한 차이가 발생하는지에 대한 비교 분석을 진행하였다. 하지만 이러한 AI의 psychological profile의 차이에 따라 downstream task의 수행에서 어떠한 차이가 발생하는지에 대해서는 다루지 않았다.

실제로 AI의 psychological profile의 차이에 따라 GPT를 사용한 대화형 AI의 발화 양상이 어떻게 달라지는지에 대한 분석 역시 필요하리라 생각한다. 연구진이 GPT를 분석에서 제외하게끔 한 한계점들을 보정해서 추가 연구가 진행되면 의미가 있겠다고 판단된다.

의의

LLM은 실제 인간이 작성한 데이터를 기반으로 훈련된다. 본 연구와 같이 심리검사 문항을 통해 LLM의 psychological profile을 측정함으로써, LLM이 학습 과정에서 인간의 psychological bias를 실제로 학습하는지 여부를 확인할 수 있으리라 판단된다. 이와 같이 AI의 심리적 특성 및 각종 belief에 대해 측정할 수 있는 방법 연구가 보다 확장된다면, 인공지능이 미처 모르고 학습할 수 있는 편견 및 차별적 발언 등을 줄이고 보정하는 데에도 큰 도움이 되리라 생각된다.

참고자료

본 논문에서 다룬 BERT의 특징 및 GPT와의 차이에 대해 알고 싶으시면,

다소 생소할 수 있는 Schwartz의 PVQ 검사에 대해 알고 싶으시면,

참고 문헌

Topic 2: Touching the social robot PARO reduces pain perception and salivary oxytocin levels [HL]

선정 이유

긴장, 통증 등의 불편감을 완화하는 데 도움이 되는 사회적 로봇에 관심이 있던 차에, 통증인지정도와 기분, 옥시토신 레벨까지 살펴본 네이처 논문이 있어 선정하였다. 특히 실험에 다양한 변인을 설정하고 꼼꼼히 상관관계를 살펴본 점이 인상 깊었으며 우리 랩에서 연구를 설계하는 데 있어 직접적으로 참고가 될 만하여 공유하기로 결정했다.

내용 요약

Visual Analog Scale(VAS)와 발열 기기, 물개 모양의 사회적 로봇 PARO를 이용해 실험이 설계되었으며 실험 대상은 25세 전후의 건강한 성인 남녀 83명이다. 실험 결과 PARO와 상호작용한 그룹은 그렇지 않은 그룹보다 통증을 인지하는 정도가 덜해졌고, 기분이 좋아졌으며 옥시토신 레벨은 떨어졌다. 또한 피험자들은 PARO를 만지는 동안 PARO를 보기만 할 때보다 통증 인지 정도가 유의미하게 낮았다. 마지막으로, PARO에 대해 긍정적인 인식을 갖고 있거나 PARO와 소통이 잘 된다고 느끼는 피험자일수록 PARO의 통증 감소 효과가 크게 나타났다.

한계점

Visual Analog Scale(VAS)의 인터페이스가 다소 비전문적으로 보이는 점에서 신뢰도가 떨어졌다. 또한, 기분을 측정하기 위해 happiness state를 VAS로 측정하였는데 ‘happiness’라는 추상적인 개념에 대해 피험자마다 다르게 받아들일 수 있기에 이것에 대한 더 구체적인 고민과 섬세한 워딩이 이루어졌다면 좋을 것이다. 마지막으로, PARO 그룹에서 T2와 T3 사이 10분 동안 PARO와 구조적 상호작용을 한 사람들과 글을 읽은 사람들 간의 비교는 전혀 하지 않은 점이 가장 아쉽다.

의의

통증인지정도에 소셜 로봇이 미치는 영향을 실험 환경에서 살펴본 첫 시도이며, 환자나 노인, 아이가 아닌 건강한 성인을 대상으로 이러한 연구를 진행한 것도 처음이라고 한다. 또한 메인 실험 진행 후 마지막에 타인에 대한 공감 능력과 PARO와의 상호작용에 대한 인지를 측정하고, 다양한 변인과의 상관관계를 살펴봄으로써 사회적 인지 능력과 소셜 로봇의 통증 감소 효과 간의 관계를 조명함으로써 미래에 연구해볼 수 있는 주제들을 제시해주었다.

참고 문헌

Topic 3: A domain-independent framework for modeling emotion [JL]

work in progress