on
Jul 29th Journal Club
Themes: Blender Bot 2.0 : Open-Domain Chatbot with Long-Term Memory, Conversational Agent, Expectation Violation Theory, Communication, AI interview, Emotion and Sentiment Analysis in Music Lyrics
Presenters: YKL (Yoon Kyung Lee), HM (Hoyoung Maeng), MJ (Minjeong Ko), JL (Jung Lee)
Topic 1: Blender Bot 2.0 : Open-Domain Chatbot with Long-Term Memory [YKL]
선정 이유
오픈도메인 챗봇 데이터 및 모델을 선도하고 있는 페이스북 AI 팀에서 이번 달에 새로 선보인 연구이다.
Blender Bot 1.0에서도 지적해왔던 그 간의 오픈 도메인 챗봇의 단점 중 짧은 기억과 지식 왜곡을 장기 기억을 학습시킴으로써 조금 더 완화했다.
내용 요약
페이스북 AI에서는 Wizard of Wikipedia, Empathetic Dialog, Persona Chatbot을 모두 합친 ‘종합형’ 오픈 도메인 챗봇 데이터/모델인 Blender Bot 1.0을 지속적으로 개발 중이다. 오픈 도메인 챗봇의 핵심은 대화를 길게, 재밌게 이어나가는 것인데,기존의 모델들은 대화를 길게 나가지 못하고 (5턴 이상을 못나감), 사용자에 대한 정보를 오래 기억하고 있지 못해 갑자기 딴 소리를 하던가, 잘못된 지식을 인터넷에서
가져오는 경향이 있었다. 이에 따라 사용자의 (정성적) 평가 또한 좋지 못했다. 본 연구에서는 이 단점을 극복하고자 챗봇에게 장기 기억(Long-term memory)를 학습시켰다.장기 기억은 심리학에서 유래된 그 장기 기억을 일컬으며, 기존의 짧은 대화들이 1시간 이상을 지속하지 못했던 것에 비해, 본 연구에서 쓴 챗봇에게는 짧게는 7시간, 길게는 7일까지 대화를 중간에 끊고 다시 시작하는 방식의 human-human간의 long-term 대화를수집했다. 중간에 긴 pause를 가진 다음 다시 대화를 시작할 때는 그 전에 나누었던 대화에 대해 일종의 요약을 같이 함으로써 다시 대화를 시작하는 형식의 데이터를 모았다 (즉, 보통 대화를 다시 할 때
지난 시간에 어디까지 애기했는지를 직간접적으로 상기시킴). 그 결과 summary를 같이 동시에 제공하는 long-term memory를 가진 챗봇의 대화가 그렇지 않은 대화보다 더 engaging하고 지식의 활용도도 더 적절하다고 평가받았다.
장단점
기존의 트랜스포머 기반 모델에서 컨벤셔널하게 쓰던 모델에 학습 가중치를 최대한 많이 넣는 방식의 training이 아닌, 실시간으로 인터넷에서 지식을 검색하고 장기 기억에 넣는 방식을 소개했다. 이렇게 함으로써 계속 업데이트되고 변화하는 인터넷 상의 지식도 대화에 같이 자연스럽게 넣음으로써, 촌스럽거나 outdated된 대화를 만들지 않을 수 있게 했다.
다만, 오픈 도메인 챗봇의 특성상, user evaluation이 다른 정량적 지표만큼 (또는 그 보다 더) 중요한데, 여기서 제안한 LTM과 summary기법을 다 쓴 것이 user의 engagingness 점수를 더 높이진 않았다. 이는 단순히 기억 매커니즘이 사람들이 지각하는 재미있는, 매력있는 챗봇에 눈에 띠는 효과를 보이는 것을 아님을 시사한다.
의의
오픈 도메인 대화 데이터와 모델을 공개함으로써 이후 후속 연구 및 반복 검증을 더 해보면, 본 연구에서 발견하지 못한 다른 ‘인간적인’, ‘매력적인’ 대화 요소를 찾을 수 있을 것으로 기대한다.
참고 문헌
- Xu, J., Szlam, A., & Weston, J. (2021). Beyond Goldfish Memory: Long-Term Open-Domain Conversation. arXiv preprint arXiv:2107.07567.
- Facebook AI Blog
- Facebook AI Project Doc: Blender Bot 2.0
Topic 2: Conversational Agent, Expectation Violation Theory, Communication [HM]
선정 이유
Conversational agent에 관하여 연구하고 싶었으며 특히 AI에 대한 인간의 기대에 관하여 스터디를 위해 선정함.
내용 요약
이 연구는 Sirl, Alexa, 챗봇 등과 같은 Conversational agent에 대하여 인간과의 communication 상황에서 챗봇의 능력(high/low)과 챗봇에 대한 인간의 기대(high/low)에 따라 챗봇에 대한 인간의 평가가 어떻게 달라지는지 175명의 실험참가자의 결과를 분석하였다.
결과적으로 high conversational 능력을 갖춘 챗봇 시스템은 low 능력을 갖춘 챗봇보다 더 높은 대화 능력을 갖았으며 동시에 긍정적인 expectation violation을 나타냈다.
또한 인간이 챗봇에 대하여 low 기대치를 가지고 있으면 high 기대치를 가지고 있을때보다 긍정적인expectation violation을 나타내었다. 이때 expectation violation이란 아래와 같은 예시로 설명될 수 있다. 평소 엄마 말을 잘 듣는 아이는(high 능력) 학교에서도 학교 생활을 잘할 것으로 기대됬을때 (high 기대치) 진짜 학교 생활을 잘하면 그 아이에 대한 평가는 덜 delight 된다. 반면 평소 엄마 말을 잘 듣지 않은 아이가 (low 능력) 학교에서도 학교 생활을 잘 못할 것으로 기대 됬었지만(low 기대치) 학교 생활을 예상외로 잘한다면 그 아이에 대한 평가가 더욱 delight 된다는 개념으로 설명될 수 있다.
이처럼 AI interactions에서 expectation violation은 conversational agent의 능력과 그들에 대한 인간의 기대치에 대하여 연관이 있음을 확인 할 수 있었다.
장단점
인간 대 인간, 인간 대 챗봇 communication 상황에서 각 파트너에 대한 기대치에 따라 delighted 될지 아니면 disappointed 될지 case에 따라 분류하여 실험이 진행되어 연구의 대한 체계성이 좋았다.
뿐만 아니라 챗봇의 response에 대하여 예시가 다양하게 나와있어 이해에 큰 도움이 되었다.
반면 챗봇에 대한 평가를 측정하는 척도로서 챗봇의 skill, politeness, engagement, responsiveness, thoughtfulness, friendliness를 사용하였는데, 각각의 survey 문항도 포함되어 있으면 더 좋았을 것으로 생각된다.
의의
Expectation Violation Theory 이론에 따른 Conversational Agent에 대해 인간의 기대치가 어떻게 변하는지 확인 할 수 있었다. 또한 향후 Conversational AI system 연구에 대하여, 개발자로 하여금 유저들과 커뮤니케이션 할 때 어떠한 기대치를 설정하여 연구를 진행하는 지 방향을 제안한 것에 의의가 있다.
참고 문헌
- Grimes, G. M., Schuetzler, R. M., & Giboney, J. S. (2021). Mental models and expectation violations in conversational AI interactions. Decision Support Systems, 144, 113515.
Topic 3: AI interview (1) [MJ]
선정 이유
최근 활발히 이루어지고 있는 인공지능 면접에 관한 면접 대상자들의 인식을 알아보고자 했다.
내용 요약
이 논문의 목적은 미디어의 특성에 따라 얻을 수 있는 정보가 다르다는 Media richness theory와 컴퓨터의 인터페이스가 인간과 비슷할수록 사람과의 상호작용을 용이하게 한다는 social interface theory를 이용해 사람이 평가하는 실시간 면접과 인공지능이 평가하는 녹화형 면접이 면접관과 면접 대상자에게 어떤 영향을 주는지 보고자 했다.
중국에서 HR 분야 지원자 180명을 대상으로 각 3가지 유형 중 하나의 인터뷰를 진행했다:
(1) Synchronous video interviews (SVI): 실시간(Two-way interview)으로 면접관과 화상으로 진행하는 인터뷰. (2) Asynchronous video interviews (AVI): 녹화형(One-way interview)으로 혼자 주어진 질문에 대답하는 인터뷰. (3) AVI-AI: 인공지능이 평가하는 녹화형 인터뷰. 이후 설문을 진행하여 평가자들의 면접 대상자들에 대한 첫 인상과 외모를 측정하고, 면접 대상자들의 인터뷰 진행 과정에 대한 평가, 공정성에 대해 측정하였다.
그 결과, 면접 형태(SVI vs. AVI)와 상관없이 면접 대상자들의 첫 인상과 외모가 평가에 유의미한 영향을 주었으며 인터뷰가 원웨이 (vs. 실시간)일 때 첫 인상과 외모가 최종 평가에 미치는 영향이 줄어들었다. 지원자들의 면접 공정성에 대한 인식은 실시간(SVI)과 원웨이(AVI) 인터뷰 간의 차이가 없었다. 또한, 녹화형 면접의 평가자가 사람 또는 인공지능(AI)인지 여부에 따른 공정성 인식도 차이가 없었지만, 면접자들은 실시간 인터뷰(SVI)를 원웨이 인터뷰(AVI, AI-AVI)보다 선호했다.
장단점
사람과 인공지능 평가자 뿐만이 아니라 사람이 평가하는 녹화형 면접과의 차이도 비교했다는 것이 흥미로웠다. 특정 직종에 지원한 사람들을 대상으로 실험이 이루어졌기 때문에 다른 직종에서는 그 효과가 다르게 나타날 수도 있다.
참고 문헌
- Suen, H. Y., Chen, M. Y. C., & Lu, S. H. (2019). Does the use of synchrony and artificial intelligence in video interviews affect interview ratings and applicant attitudes?. Computers in Human Behavior, 98, 93-101.
Topic 4: AI interview (2) [MJ]
선정 이유
AI 인터뷰에 대한 사람들의 인식을 심리학적으로 잘 풀어낸 연구. 또한, 외국과는 다르게 AI 면접에 대해 호의적인 한국인의 특성을 볼 수 있는 연구였다.
내용 요약
이 논문의 목적은 입사자들의 AI 면접 채용과정에 대한 만족도와 채용절차에 대한 공정성을 확인하는 것이다. 기존 연구에 따르면 세상이 공정하다고(belief in a just world) 생각하지 않는 사람일수록 다른 사람에 대한 믿음이 낮고 냉소적이며 공격적이기 때문에, 공정성 믿음이 낮은 사람은 AI 평가자를 사람보다 더 신뢰할 것이다. 본 연구는 취업을 준비하는 막학기 한국인 대학생 191명을 상대로 정당한 세상에 대한 믿음(belief in a just world)을 측정하고 이후 AI or 사람 면접 시나리오를 보여주고 면접 과정에 대한 만족도, 절차 공정성(perceived procedural fairness), 평가자에 대한 신뢰(trust in the recruiter)를 측정하였다. 그 결과, 만족도, 절차적 공정성, 면접자에 대한 믿음이 평가자가 사람일 때 보다 AI일 때 더 높게 나타났다. 또한, 정당한 세상에 대한 믿음(belief in a just world)가 낮을 때, 사람들의 AI 면접관에 대한 만족도, 절차적 공정성, 면접관에 대한 믿음이 모두 상승했다. 반면, 정당한 세상에 대한 믿음이 높을 때는 차이가 없었다.
장단점
정당한 세상 믿음이라는 조절변수를 제시함으로써 사람마다 AI면접관에 대한 태도가 왜 다른지 이해하는데 도움을 주는 연구였다. 시나리오를 제시하고 설문을 진행했기 때문에 실제 경험에 기초한 결과가 아닐 수 있다.
참고 문헌
- Min, J., Kim, S., Park, Y., & Sohn, Y. W. (2018). A Comparative Study of Potential Job Candidates’ Perceptions of an AI Recruiter and a Human Recruiter. Journal of the Korea Convergence Society, 9(5), 191-202.
Topic 5: Emotion and Sentiment Analysis in Music Lyrics [JL]
선정 이유
가사 분석으로 음악을 추천하는 방식을 조사하던 중, 기존 곡과의 ‘감정 거리’가 최소가 되는 곡을 찾는 방식으로 가사를 분석한 연구가 있어 리뷰하게 되었다.
내용 요약
가사 데이터 수집은 Genius Lyrics에서 빌보드 핫100 차트의 노래 11,000개를 크롤링하였다. 이후 Stanford Corenlp를 통해 text mining 과정을 거쳐 총 3,771,413개의 단어가 NLP 기법으로 분석되었다. 이 때 가사의 sentiment anlysis를 위해 10가지 감정을 기준으로 단어 특성을 분류한 NRC emotion lexicon이 사용되었다. 본 연구에서는 특히 NRC emotion lexicon 관련하여 Paul Ekman이 제시한 기준을 적용하였는데, set 1은 positive와 negative로 나누는 ‘Sentiment Analysis’이고, set 2는 6가지 set of human emotions를 나타내는 ‘Emotion Analysis’다.
NLP 분석 내용을 바탕으로 각 가사의 Lyrics Emotion & Sentiment Score를 매긴 후 총 8가지 기준에 따라 가사를 분류한다. 마지막으로, 기존 곡과의 ‘감정 거리’가 최소가 되는 곡을 찾기 위해 K-최근접 이웃(K-NN) 분류 방법을 사용하여 이 때 나타나는 유클리디안 거리를 계산하였다. 연구 결과, 가장 가까운 거리의 100개 곡 중 20.87%가 원곡의 장르와 일치하였다(pop 기준).
장단점
많은 연구가 이미 알려진 장르 특성에 따라 음악을 분류했던 반면, 본 연구에서는 text mining 기법을 이용하여 개별적인 곡이 각 장르를 대표할 수 있도록 하였다.
의의
음악 가사에 대한 emotion & sentiment analysis를 통하여 새로운 음악 추천 방식을 고안하였다. 이후 분석한 곡들 간의 장르 일치율을 살펴봄으로써 그 정확성을 파악할 수 있었다.
참고 문헌
- NRC emotion lexicon
- Choi, J., Song, J., & Kim, Y. (2018). An Analysis of Music Lyrics by Measuring the Distance of Emotion and Sentiment. 2018 19th IEEE/ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing (SNPD), 176-181, doi: 10.1109/SNPD.2018.8441085.