July 6th Journal Club

Themes: Transformers, BERT, Sense of Agency (SOA), Emotion and Cognition, Abstraction, Word2Vec 

Presenters: YK (Yoon Kyung Lee), YW (Yoonwon Jung), JE (Jaeun Park), IJ (Inju Lee), HY (Hoyoung Maeng), WK (Whani Kim)
Guest : HeeYoung Park (Psychometrics Lab)


Topic 1: Language Models and Transformers [YK]

선정 이유: 자연어처리와 딥러닝 분야에서 Transformer의 등장으로 인해 알게된 새로운 지식과 향후 방향에 대해 잘 요약했기에 선정했다.

내용 요약: 자연어 처리와 딥러닝이 결합한 형태의 모형과 적용 사례가 계속 급증하고 있다. 하지만, 언어를 기반으로 한 분야 모두가 뉴럴넷을 사용하고 있지는 않다. 현재 뉴럴넷을 가장 많이 쓰고 있는 영역(“very neural”)은 Speech synthesis, machine translation, speech recognition이다. 이는 2013년 이후로 딥러닝 소개로 엄청난 발전을 거듭했다. 현재 과도기적인 단계는 질의응답(Question answering), Search information/retrieval, Text classification, summarization이다. 아직 딥러닝이 덜 적용된 분야는 좀 더 응용된 영역인데 주로 Home assistants, Dialogue system이다. 초반에는 워드투벡(word2vec)만으로도 충분히 좋은 성능이라고 여겨졌으나, 점점 더 구글, 페이스북, 스탠포드 등의 우수한 인재들이 있는 팀에서 성능이 좋고 빠른 모델들이 나오기 시작했다. 가장 대표적으로 잘 알려진 모델들은 워드투벡, bi-LSTM, ELMO, GPT, 그리고 가장 최근에 나오고 현재까지 가장 좋은 성능을 보이고 있는 BERT이다. BERT같은 경우 스탠포드 자연어처리 경진대회인 SQuaD에서 사람의 최고 점수를 능가한 이후로 폭팔적인 반응을 일으킨 바가 있다.

그 간 자연어처리 영역에서 뉴럴넷의 활발한 적용의 결과로 창출된 지식들도 많은데, 크게 4가지 중요한 점을 찾았다. 첫째, 단어들은 단순히 discrete symbol이 아니다 (Words are not discrete symbols). 예를 들어, ‘Face’란 단어는 사람의 얼굴, 시간의 정확성, 무언가를 맞서다, 그리고 사람이란 의미로 쓰인다. 하지만 문장 내에서 다르게 쓰였다고 해서 단어 본연의 ‘얼굴’이란 의미가 퇴색되거나 사라지진 않는다. Hill은 Transformer가 Multi-head processing과 Distributed Representation을 통해 이를 기존의 모형보다 조금은 더 잘 나타낼 수 있게 되었다고 해석한다. 둘째, 단어 또는 문장의 모호함은 문맥에 따라 달라진다. 보통 기존의 자연어처리 기법에서 다루어진 ‘문맥’은 문장 내에서 한 단어의 바로 앞 또는 바로 뒤 단어만을 뜻했다. 하지만 종종 단어가 어떻게 쓰이고 어떤 의미를 가졌는지를 파악하기 위해서는 문장의 n번째 앞에 있는 단어를 참조해야할때도 있다. 즉, 단어 자체만 보는 대신, 이를 배경으로 둔 더 넓은 차원의 지식을 볼 필요가 있고 그래야 문장/단어의 뜻, 의도, 목적이 이해 가능하다. Hill은 Transformer가 가지는 self-attention을 통해 이와 같은 ‘인지 과정’을 구현할 수 있다고 해석한다.

셋째, 문장 내에서 한 단어와 중요한 관계를 가지는 단어는 local하지 않을 수 있다. 즉, 그 문장만 봐서는 해당 단어가 어떤 의미로 쓰였는지 모를 때가 많다. 대표적인 예가 관용구나 속담이다. Transformer에서는 이를 self-attention과 multiple layers를 통해 중요하지 않거나 이상한 문장을 찾아내면 해당 레이어로 다시 피드백할 수 있거나 가중치를 업데이트할 수 있다.

마지막으로 의미가 형성되는 과정은 실제 ‘의미’에 달려있다. Pet + Fish = Pet Fish라고 해서 Fish가 완전히 다른 개념의 Fish가 되지 않는다. 여기서 핵심적인 단어는 Fish인 것이다. 이처럼 레이어와 레이어를 거치면서 문장 내 단어간의 연결에만 치중해서 계산하게 된다면, 본연의 단순한 의미가 상실될 수도 있다. 그래서 Transformer에서는 skip connections라는 기법을 통해 Input으로 들어온 단어의 본연의 의미를 중간 레이어들에 지속적으로 ‘리마인드’한다 (즉, 몇 단계 레이어를 점프해서 Input 단어의 임베딩/가중치를 바로 학습시킨다). 또한 의미 분포를 통해 실제 유사하게 쓰일 수 있는 문장을 찾을 수 있다(Time flies like an arrow vs Fruit flies like a banana 중 John works like a trojan과 비슷한 형태/목적을 가진 문장이 첫번째 문장인 것과 같은 원리).
의의: 자연어처리 기법의 부상과 트랜스포머에 대해 개괄적으로 잘 정리되어있다. 또한, 잘 알려진 기법 위주의 강좌와는 달리 인지과학적인 해석이 돋보인다.


[DeepMind X UCL Deep Learning Lecture Series 7 Deep Learning for Natural Language Processing (Felix Hill)](https://www.youtube.com/watch?v=8zAP2qWAsKg&list=PLqYmG7hTraZCDxZ44o4p3N5Anz3lLRVZF&index=7)

Topic 2: Sense of Agency(SoA), human-AI interaction [IJ]

선정이유: 사람과 인공지능의 상호작용에서의 Sense of Agency(SoA) 개념이 흥미로워 보여서 선정하였다.

내용요약 : SoA는 자신의 행동을 스스로 제어(control)하고 이러한 행동이 외부 세계에 영향을 미친다는 것을 주관적으로 경험하는 것을 의미하며, 따라서 자유의지, 자기인식(self-awareness), 행동과 결과 간의 인과관계 등의 경험의 근간을 이룬다. 사람과 인공지능의 상호작용에서 인공지능의 SoA가 높아질 때 사람의 SoA는 낮아질 수 있다는 딜레마가 존재한다. 따라서 인공지능은 사람의 SoA에 대해 정확하게 인식하고 그에 따라 적절한 행동을 취하여 사람의 SoA을 높은 수준으로 유지해주어야 하며, 이를 위해선 인공지능이 자신의 SoA를 정확하게 인식하는 것이 우선 되어야 한다. Human Science 분야에서의 SoA에 대한 이론에는 CM(Comparator Model), RI(Retrospective Inference), MWM(Multifactorial Weighting Model), fluency of action selection이 존재하며, 저자들은 이 이론들에 대한 통합 모델을 제시한다. 인공지능의 SoA와 관련된 연구들은 이미 진행되어 오고 있지만, 감각운동의 처리 과정에만 초점을 맞추고 인지적 수준의 처리 과정은 다루지 않아 SoA의 모든 부분을 고려하지 못하고 있다는 한계점을 지니고 있다. 저자들이 제시한 SoA 통합모델은 더 견고한 인공지능 SoA 실현을 위한 연구의 로드맵이 될 수 있을 것으로 보인다.

장점: 사람과 인공지능의 상호작용에서 SoA의 중요성과 그에 따라 인공지능의 SoA를 어떻게 모델링할 수 있는지에 대해 체계적으로 정리해놓았다. 의의: 인공지능의 더욱 견고한 SoA 실현을 위한 통합모델을 제시하였다.


Legaspi, R., He, Z., & Toyoizumi, T. (2019). Synthetic agency: sense of agency in artificial intelligence. Current Opinion in Behavioral Sciences, 29, 84-90.

Topic 3: Principles of affect and cognition [YWJ]

선정 이유: 인지적 관점에서 감정에 대해 공부해 보고 싶어서 선정하였다.

내용 요약: 정서와 그 정서를 유발하는 대상은 분리가 가능하다. 이를 바탕으로 감정이 사고와 행동에 미치는 영향을 이해하기 위한 affect-as-information접근에는 세 가지의 원칙이 있다. 첫째로, 감정을 대상으로부터 분리하는 continuous flash suppression 기법의 대상자들은 무서운 얼굴을 본 것은 기억하지 못하였지만 부정적 감정은 남아서 그것을 중립 얼굴에 귀인하였다. 이는 정서는 암묵적인 귀인에 의존한다는 귀인 원칙(attribution principle)에 의해 설명된다. 두 번째로, 정서적 반응이 일어날 당시의 마음에 무엇이 있었는지가 감정적 연합, 목표, 설득, 판단 등에 있어서 중요한 영향을 미쳤으며, 때로는 판단의 대상 자체가 아니라 자신이 대상에 대해 가졌던 초기 의견이 감정적 반응의 대상이 되었다. 이는 귀인 원칙과 더불어, 정신적으로 접근이 가능한 대상에 대해 감정적 반응이 일어난다는 즉각성 원칙(immediacy principle)에 의해 설명된다. 마지막으로, 인지적 처리과정을 요하는 문제 해결의 상황에서 감정은 사고 내용보다는 사고 양식에 대한 평가로 기능하였다. 이는 정서가 경험되는 경향성에 대한 go/stop 신호로서 기능함을 의미하는 정서적 처리 원칙(affective processing principle)이 설명한다. 정리하자면, 인지에 대한 정서적 영향은 고정된 것이 아니라 변경 가능하고 맥락 의존적이다.


단점: 소개한 연구들 중 점화 기법을 사용한 경우가 많아 보이는데, 일부 연구에서 반복 검증이 잘 된 결과인지가 언급되지 않아 아쉽다. 최근에 점화 기법이 유의한 차이를 가져오지 못하는 것으로 밝혀진 만큼 반복 검증이 잘 된 연구들을 근거와 함께 소개하는 것이 아티클의 설득력을 높이는 데에 필요해 보인다.
의의: 정서를 단독으로 연구하려는 시도를 넘어, 인지와 정서의 연관성을 연구한 논문들의 성과를 정리하여 관련된 원칙들을 도출하였다.


Clore, G. L., Schiller, A. J., & Shaked, A. (2018). Affect and cognition: Three principles. Current opinion in behavioral sciences, 19, 78-82.

Topic 4: Abstraction, abstract representation, decision making [SMC]

선정 이유: 인간의 효율적인 판단에 영향을 미치는 abstract representation skill이 실질적으로 decision making에 어떤 역할을 하는지 공부하고 싶어서 선정하였다.

내용 요약: Abstraction 은 3가지 방법으로 인간의 decision making에 영향을 미친다.

  1. Exploration 과 generalization을 도움으로써 1) state간의 transfer을 원활하게 하고 2) simplicity 의 정도를 조절한다.
  2. Time 과 optimality 를 조율하면서 현명한 결정을 내릴 수 있도록 adaptability 를 향상시킨다.
  3. Computation 을 단순화함으로써 특히 계획을 세울 때 시간과 에너지의 효율적인 사용을 도운다. 3.1. Algorithm-specific abstractions 3.2. Forward stimulation: Branching 을 통해 여러 개의 계획 변수를 넓혀 나감으로써 결과에 도달하는 여러가지 시나리오를 구성한다. 비슷한 양상을 보이는 중간 과정들을 제거함으로써 몇 개의 계획만 남기게 된다. 3.3. Backward stimulation: 미래에 가능할 법한 상황을 먼저 제시한 후, 실행을 위한 정보를 늘려나감으로써 진행된다.

장단점: abstraction의 인간 안에서의 역할에만 집중하였고 실제로 이러한 skill이 RL과 AI 에 어떻게 적용될 수 있는지에 관한 분석이 없다는 점이 아쉽다.

의의:인간에게 많은 에너지 소모를 요구하지 않는 abstraction skill이 decision making 에 어떠한 방식으로 영향을 미치는지 체계적으로 분석하였다.

 Ho, M., Abel, D., Griffiths, T. L., & Littman, M. (2019). The value of abstraction. Current Opinion in Behavioral Sciences, 29,  111-116

Topic 5: HRI, Emotional Body Language [WK]

선정 이유: 학위논문 관련하여 배경을 지속적으로 조사하는 중 신체언어에 관한 논문을 찾아 선정하였다.

내용 요약: 나오 같이 얼굴 표현을 하지 못 하는 로봇들은 신체 언어를 통해 감정을 표현해야 한다. 본 연구의 주 목적은 머리 위치 (head position)가 감정을 나타내는 포즈에 어떤 영향을 주는지를 살펴 보는 것이였다. 본 연구에서는 화남 (anger), 슬픔 (sadness), 두려움 (fear), 자랑스러운 (pride), 행복 (happiness), 신남 (excitment) 6개의 key pose를 구현하였으며 머리 위치를 위를 쳐다보거나, 앞을 보거나, 밑을 쳐다보도록 설정하여 머리 위치가 어떤 영향을 주는지 보았다. 머리 위치에 따라 더 정확히 구별되는 감정이 있었다. 머리 위치가 위를 쳐다보는 경우 자랑스러운, 행복, 신남의 감정을 더 정확히 식별하였으며 밑을 쳐다보는 경우 화남, 슬픔을 더 잘 식별하였다. 또한, 머리 위치가 위로 향했을 때 arousal (level of energy) 이 더 높게 평가되었으나 valence (positive or negative) 와 stance (How approachable is the stimulus) 는 머리 위치와 key pose가 나타내는 감정에 영향 받았다. 장단점: 장점으로는 key pose를 배우의 몸짓을 녹화하여 나오 로봇에 적용하였음으로 실제 사람들이 몸으로 통해 감정을 표현하는 포즈를 구현하였다는 것이다. 하지만 6개의 포즈로만으로는 모든 감정을 표현하기에는 제한적이다. 또한, 본 연구는 비디오를 보지 않고 사진을 통해 이루어져 좀 아쉬운 점이 있다.

의의: 신체 언어를 통해 감정을 표현해야 하는 로봇들에게는 몸짓만 아니라 머리 위치도 중요한 역할을 한다는 것을 보여준 연구이다.

Beck, A., Canamero, L., Bard, K.A. (2010). Towards an Affect Space for Robots to Display Emotional Body Language. In 19th International symposium in robot and human interactive communication, 464-469.

Topic 6: Emotion, motivation and function [HY]

선정 이유: 인간이 감정을 느끼는 이유에 대해 분석하는 측면이 흥미로웠다.

내용 요약: Fear 라는 감정을 느끼는 동기부여와 기능에 대해 설명함. 먼저 동기부여는 감정의 일부분이며, 감정이 좀더 큰 범주로 정의된다. 예를 들어, Fear라는 감정은 특정한 행동을 하게 하는 동기부여로서의 역할을(motivatior) 한다. 따라서 감정과 동기부여는 불가분하게 연결되어 있다고 말할 수 있다. 이후 Fear와 관련된 행동은 환경적인 위험에 대한 방어를 하는 기능을 가지고 있다. 그리고 방어는 3단계로 구분할 수 있다.(anxiety -> fear -> panic) fear는 중간단계이며, 이전 단계(덜 임박한 위협에 대한 걱정을 표출하는 것)은 anxiety 이며 다음 단계(더 임박한 위협에 대해 걱정을 표출하는 것)은 panic 이다. 감정은 4가지 측면으로 정의할 수 있다(specifying function, antece- dents, consequents and circuitry). 결론적으로, 인간은 위협에 대한 방어를 하기 위해 감정을 느끼며 동시에 방어 행동에 대한 동기부여를 느끼기 위해 감정을 느낀다고 할 수 있다.

장단점: 부정적인 감정(fear)에 대한 분석만 있어서 아쉬움이 남는다, happy 같은 긍정적인 감정에 대한 분석도 있으면 좀더 비교하기 좋을 것이라고 생각한다

의의: 인간이 특정 감정을 느끼는 이유와 행동에 대해 논리적인 설명이 되어 있어 향후 감정관련된 실험 혹은 연구를 할때 참고할만한 문헌으로 생각된다.

Fanslow, M. S. (2018). Emotion, motivation and function. Current Opinion in Behavioral Sciences, 19, 105-109 <br>

Topic 7: NLP, Word embedding, Word2vec [JP]

선정 이유: NLP에서 word vector로 단어의 의미를 표현하는 방식 학습

내용 요약: Word2Vec과 같은 워드 임베딩(word embedding)에서는 단어의 의미를 그 단어와 함께 자주 나타나는 단어 (즉, 같은 문맥에서 나타나는 단어)로 정의한다. 같은 문맥에서 나타나는 단어는 의미적/통사적 유사성이 있으리라는 전제 하에, 유사한 단어(비슷한 맥락에서 나타나는 단어)는 벡터 공간에서 가까운 곳에, 유사하지 않은 단어(비슷한 맥락에서 나타나지 않는 단어)는 먼 곳에 위치하도록 벡터 값이 설정되도록 만드는 것이 Word2Vec의 목표라고 할 수 있다. 이러한 결과를 얻기 위해서 (skip-gram 방식의 경우) 코퍼스에 있는 모든 단어에 대하여 중심 단어(center word)가 주어졌을 때 주변 단어(context word)가 나올 확률을 계산, 이 확률이 최대가 되도록 파라미터인 단어의 벡터 값을 조정한다. 이와 같이 형성된 벡터는 단어 간 유사성을 표현할 수 있을 뿐 아니라, 단어 간 다양한 관계를 표현하는 것이 가능하기도 하다.

장단점: Word2Vec은 localist representations과 비교해 단어 간 유사성을 표현할 수 있다는 장점이 있다. count-based word vector에 비해 저차원, 밀집 벡터를 사용하여 computational cost가 더 적으며, NNLM 등 다른 워드 임베딩 기법과 비교해서도 학습 속도가 빠르다는 것도 Word2vec의 강점이다.
의의: 비교적 간단한 word vector로도 많은 텍스트 데이터를 학습함으로써 단어 간 관계를 표현할 수 있다는 것을 보여주었다.


Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.