Aug 24th Journal Club

Themes: Visual Dialog, Machine Language Model, Lifelong learning, Vanishing Gradient, Self-Disclosure, Bayesian Inference 

Presenters: YK (Yoon Kyung Lee), YW (Yoonwon Jung), JE (Jaeun Park), IJ (Inju Lee), HY (Hoyoung Maeng), WK (Whani Kim), SC (Soomin Cho)
Guest : HeeYoung Park (Psychometrics Lab)


Topic 1: Visual Dialog [YK]

선정 이유: 시각 자료 기반 대화 챌런지와 데이터셋에 대해 궁금했고, 이를 CVPR에서 처음으로 선보인 페이퍼여서 리뷰를 위해 선정하였다.

내용 요약: Visual Dialog는 2017년에 처음 조지아공대의 Parikh 교수팀이 Visual Dialog v.01 데이터셋과 이 논문을 공개하면서 시작되었다. 2019년에 정식으로 CVPR에서 첫번째 챌런지를 열게 되었으며 올해는 2월에 시작했다.
본 챌런지의 과제는 다음과 같다. 하나의 이미지와, 그 이미지에 대해 나눈 3번의 대화 (Q1, A1, Q2, A2, Q3, A3)를 제공한다. 이때 Q3과 A3은 A2에 대한 follow-up question이다. 시각 자료 기반 튜링 테스트의 형태로 이해하면 된다. 이미지는 COCO dataset(훈련은 83k, 테스트는, 40k) 에서 가져왔다. 이 데이터 또한 visualdialog.org 챌런지 사이트에 공개되었다. 본 연구에서 사용한 encoder는 다음과 같다: Late Fusion, Hiearchical Recurrent Encoder, Memory Network. Decoder는 discriminitive와 generative 모델을 썼다. 이 논문이 2017년도에 발표된 것을 감안하면 그 당시 가장 성능이 좋은 모형들을 사용한 것이다. 성능을 비교한 결과, Generative에서 mean rank를 제외하고는 모든 성능 지표에서 MN을 합친 모형이 압도적인 성능을 보였다(mean reciprocal rank, recall@k, and mean rank). 하지만 지금은 Transformer가 등장하여 이를 대체할 모형들이 있다.
데이터 수집은 다음과 같다. 먼저, Mturk 작업자들에게 질문과 답을 생성하게 했다. 작업자는 질문가(Questioner)와 답변가(Answerer)로 나뉜다. 마치 스무고개를 하듯이 질문가는 사진을 보지 못하고 계속 질문만 할 수 있다 (10개). 답변가는 질문가가 던지는 질문에 대해 주어진 사진을 보면서 답변을 해줘야한다. 그 결과, 질문의 경우 5개의 단어로 구성된 문장이 가장 많았다. 이는 “Is there a .."와 비슷한 형태의 문장일 가능성이 많다. 실제로 예시로 보여준 문장들은 "Are they tall or short", 또는 "Do they look old or new" 등의 형태를 띈다. Yes/no 를 제외한 답변 중 가장 많이 나온 단어는 white, black, brown 등의 색깔을 나타내는 단어였다.

의의: 실제 대화 형태의 데이터셋을 수집하고 뉴럴넷에 학습시킬 수 있는 방법과 과정을 담고 있다. 이 챌런지는 현재까지도 Computer Vision의 저명한 학회인 CVPR2020의 VQA챌런지에서도 계속 되고 있다. 최근에는 BERT등의 Transformer기반 모형을 활용하고 있으니 다음 기회에 이에 대한 리뷰를 할 예정이다.

장단점: 이 페이퍼는 1) 대화 형태의 데이터셋, 2) Answerer와 Questioner로 나뉘어 주어진 시각 자료에 대해 Amazon MTurk 작업자들이 서로 질문하고 답하게 함으로써 자연어 데이터를 수집한 것, 3) LSTM을 두개 쌓아 만든 Hierarchical LSTM과 Memory Network를 써서 기억을 저장하는 공간을 구분한 모델을 사용한 후 성능을 비교했다는 점에서 기존의 VQA 또는 관련 NLP 논문과 차별된다.


Das, A., Kottur, S., Gupta, K., Singh, A., Yadav, D., Moura, J. M., ... & Batra, D. (2017). Visual dialog. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 326-335).


Topic 2: Machine Language Model, Human-Level Language Understanding, Integrated Understanding System [IJ]

선정이유: 인공지능의 자연어 이해 성능을 높이기 위해서 어떤 방향으로 연구가 진행되어 나가야 하는지 궁금하여 읽어 보았다.

내용요약 : 자연어 처리에 있어 최근 접근법들은 artificial neural networks을 통해 구현되는 domain general principles of learning and representation에 의존해왔다. 그러나 이러한 접근법들은 언어 자체에만 초점을 맞춘다는 점에서 한계를 지닌다. 사람에게 있어 언어는 주변 상황과 물체에 대해 표현하고 소통하는 더 큰 시스템의 한 부분이다. 이러한 사람의 인지 구조 및 처리 과정을 인공지능이 모방하게 함으로써 인공지능의 자연어 이해의 성능을 높일 수 있다.
1) 인공지능에 있어 물체의 representation를 시각적 정보 및 언어와 연결 짓는 연구들이 진행되어 왔다. 앞으로는 시각적 정보와 언어를 통합하는 것을 넘어서, non-language sound, touch 등의 다양한 정보들을 완전히 통합하는 것이 필요하다.
2) 사람은 deep neural network와 같은 학습시스템으로 점차적으로 학습하는 시스템과 새로운 정부를 빠르게 학습하는 fast-learning 시스템을 모두 가지고 있다. 인공지능에 있어 fast-learning system은 DNC(Differentiable Neural Computer) 안에 있는 기억 시스템을 통해 구현할 수 있을 것으로 보인다. 이 시스템으로부터 관련된 정보를 인출해내는 것은 querying system을 통해 구현할 수 있다.
3) 현재 machine model은 언어를 concrete한 상황과 연결 짓는 것에 머물러 있지만, 앞으로는 concrete한 상황을 넘어서 추상적이고 복잡한 상황들에 대해서 다룰 수 있는 model을 개발해야 한다. 단어들은 그 자체로 다른 단어들을 특징 지어줄 수 있는 새로운 추상적인 substrate를 제공한다. 워드 임베딩이 이러한 substrate의 하나의 implementation이다. 또한 Embodied, simulation-based approaches를 이용하여 metaphor를 통해 구체적인 상황으로부터 추상적인 상황을 연결 지어줄 수 있다.

의의: 사람 수준의 언어 이해를 인공지능에게 구현시키기 위한 방법을 다룬 리뷰 논문이다. 현재 자연어 처리 연구가 어느 정도까지 진행되어 왔는지, 따라서 앞으로 어떤 연구를 진행해야 하는지, 향후 연구에 기반이 되는 사람의 인지 구조 및 처리 과정이 무엇인지 정리해 놓았다.


McClelland, J. L., Hill, F., Rudolph, M., Baldridge, J., & Schütze, H. (2019). Extending machine language models toward human-level language understanding. arXiv preprint arXiv:1912.05877.


Topic 3: Lifelong learning and inductive bias [HY]

선정 이유: 평생학습의 문제점이라는 주제를 선정한 것에 첫번째로 흥미를 느꼈고, 그것을 머신러닝 관점으로 해석하여 풀어내는 과정이 신선했다.

내용 요약: ‘좋은’ 귀납적 편견을 형성하는 자연스러운 방법은 평생 학습을 통하여, 에이전트가 지금까지 보고 해결한 과제를 바탕으로미래의 과제에 대한 성과를 향상시키는 것을 목표로, 일련의 과제를 통해 지속적으로 세계와 상호작용하는 것이다. 학습이라는 것은 두 단계이다.
각 과제 내에서 학습자는 유한표본에 근거하여, 그리고 과제 간에는 과제 전반에 걸쳐 일반화가 잘 이루어질 것으로 기대된다. 훌륭한 평생학습자는 “리셋 없는 지속적인 학습, 새로운 과제에 대한 행동 개선, 부정 전송 방지, 이전 과제에 대한 망각 방지, 계산 추적성(기억 및 시간), 능동 데이터 선택 - 학습에 사용되는 데이터 유형 제어 등과 같은 속성을 가진다. 단일 과제 학습 패러다임을 넘어서기 위한 몇 가지 다른 접근법이 최근 몇 년 동안 공식화되었다.
첫째, 멀티태스킹 학습에서는 에이전트에게 위와 같이 일련의 N과제가 주어지지만, 순차적으로 해결하기보다는 모든 과제에 동시에 접근할 수 있게 되는데, 이는 타인과의 관계를 바탕으로 각 과제에 대한 해결책을 개선하는 것이 목적이다. 둘째, 전송 학습에서 에이전트는 소스 및 대상 도메인에 대한 액세스 권한을 갖는다. 일반적으로 소스 도메인에는 정보가 풍부하지만(예: 광범위한 라벨링 데이터), 에이전트가 관심 있는 대상 도메인에는 희박한 데이터(예: 라벨이 거의 없음)만 있다.

장단점: 머신러닝에 대한 기초개념을 재 학습할 수 있어서 도움이 되었다. 반면 구체적인 실험이나 데이터 셋이 없어 이해하기 어려웠으며, 평생학습을 머신러닝으로 풀어내려는 시도는 좋아보였으나 문제점이 명확하게 느껴지지는 않았다.

의의: 머신러닝에 대해 기초 개념을 학습하고, 평생학습 관련 알고리즘 구상이 필요할 시, 참고할 만한 논문이라고 생각한다.


Amit, R., & Meir, R. (2019). Lifelong learning and inductive bias. Current Opinion in Behavioral Sciences, 29, 51–54


Topic 4: Vanishing Gradient, LSTM, GRU [JP]

선정 이유: Vanilla RNN에서 나타날 수 있는 문제와 이를 해결하기 위한 방안에 대해 학습하기 위해 선정하였다.

내용 요약: RNN을 포함한 딥러닝에서 나타나는 문제 중 Vanishing gradient 문제가 있다. Vanishing gradient는 역전파를 거치는 동안 gradient(기울기)가 소실되는 현상이다. RNN의 경우 Backpropagation Through Time(BPTT)라는 알고리즘을 통해 weight를 업데이트를 하는데 vanishing gradient 현상 때문에 먼 time step에서의 정보가 잘 반영되지 않는다는 문제로 이어지게 된다. 따라서 RNN을 통해 language model 구성 시 멀리 떨어진 맥락의 반영이 잘 되지 않는다.
이 문제를 해결하기 위해 RNN의 일종인 Long Short-Term Memory(LSTM)을 사용할 수 있다. LSTM와 vanilla RNN의 근본적인 차이는, LSTM에서는 input과 이전 step에서의 hidden state만 한 time step에서 사용하는 것이 아니라, 이전 step들에서의 정보를 저장하기 위한 cell state를 사용한다는 것이다. 이러한 방법을 통해 LSTM은 가까이 있는 step에서의 정보뿐 아니라 멀리 있는 time step의 정보도 따로 저장함으로써 vanishing gradient에 덜 취약할 수 있다. LSTM에서는 gate를 사용하여 정보를 삭제할지, cell state에 입력할지, 현재 hidden state에 반영할지 등을 조정한다. GRU는 LSTM의 간단한 버전으로, cell state를 따로 사용하지 않고 input과 hidden state만 사용하지만 LSTM처럼 gate를 이용해 과거 정보를 삭제하거나 입력한다.
RNN의 일종인 Bidirectional RNN이나 Multi-layer RNN을 사용하면 더 좋은 결과를 얻을 수도 있다. Bidirectional RNN은 forward RNN과 backward RNN의 hidden state를 함께 사용하여 왼쪽과 오른쪽의 맥락을 전부 사용 가능하게 한다. Multi-layer RNN을 사용하면 complex representation 계산이 가능하다.

장단점: Vanishing gradient로 인해 멀리 떨어져 있는 맥락을 반영하기 어려운 일반 RNN과 달리, LSTM이나 GRU는 gate를 이용해 멀리 떨어진 time step의 정보도 필요에 따라 저장해놓음으로써 과거의 정보를 이용하는 것이 가능하다는 장점이 있다.


 Goodfellow, I., Bengio, Y., & Courville, A. (2016). Sequence modeling: recurrent and recursive nets. Deep Learning, 367-415.


Topic 5: Chatbot, Self-Disclosure [WK]

선정 이유: 소셜 로봇, HRI에서 만족도, 사용도, 믿음 등 여러 요소를 높이기 위해서 무엇이 필요한 지 살펴보기 위해 선정하였다.

내용 요약: Self-Disclosure는 자기에 대한 정보를 공개하는 과정이다. 이 과정을 통해 더 나은 대인관계를 형성할 수 있다. 본 논문은 이런 과정을 챗봇에 적용하여 사용자들에게 어떤 영향을 미치는 지 알아보는 연구이다. 본 연구에서는 47명을 모집하여 3가지 챗봇: Self-disclosure를 하지 않는 챗봇 (ND), Self-disclosure를 조금하는 챗봇 (LD), Self-disclosure를 많이 하는 챗봇 (HD) 컨디션으로 나누어 3주간 사용하였다. 결과요약은 Self-disclosure를 하는 챗봇을 사용한 사용자는 챗봇의 self-discloure를 reciprocate 하여서 스스로 더 self-disclosure를 하였으며 챗봇과의 intimacy 와 enjoyment가 높아졌다. 챗봇은 Manychat 과 Google Dialogflow를 사용하여 만들었으며 journaling, smalltalk, 과 Sensitive question task으로 이루어졌다. Small talk 같은 경우에는 챗봇이 self-disclosure를 할 수 있는 기회를 만들어 주는 역할을 하였기 때문에 ND 챗봇은 small talk을 하지 않았다. 사용자의 self-disclosure rate는 LIWC를 통해 word count를 측정하였다. trust, intimacy, enjoyment는 설문지를 통해 측정하였다. 또한 인터뷰를 통하여 qualitative data를 수집하였다. Journaling task의 결과는 다음과 같다. 단순한 정보와 생각은 유의미한 결과가 나타나지 않았으며 감정 disclosure는 day 2와 day 6에 높게 나타났다. Word count는 HD와 LD 컨디션에 ND에 비해 더 높게 나타난 것을 알 수 있다. Sensitive question task의 결과는 다음과 같다. 단순한 정보는 컨디션 사이에 유의미한 결과를 나타나지 않았지만 생각, 감정, 및 word count는 HD와 LD 컨디션에서 더 높게 나왔다. 챗봇에 대한 trust, intimacy, enjoyment 결과를 요약하면: HD 챗봇의 enjoyment은 ND와 LD에 비해 더 높았으며 trust는 ND에 비해 HD와 LD 컨디션에서 통계적으로 유의미하게 높게 나왔다. 마지막으로 HD 챗봇와의 intimacy는 시간이 지날 수록 높아지는 결과를 보였다.

장단점: 3가지 챗봇을 통해 사용자들의 self-disclosure를 보았으며 qualitative data도 수집함으로서 풍부한 결과를 낼수 있었다. 본 연구는 chatbot design guideline에 기여할 수 있을 것이다.

의의: 인공신경망으로 dependency parsing을 함으로써 단어 개별의 의미뿐 아니라 문장구조의 파악이 가능하다.


Lee, Y. C., Yamashita, N., Huang, Y., & Fu, W. (2020). " I Hear You, I Feel You": Encouraging Deep Self-disclosure through a Chatbot. In Proceedings of the 2020 CHI conference on human factors in computing systems, (pp. 1-12).


Topic 6: Bayesian Inference, AI [YW]

선정 이유: 베이지안 추론을 AI와 관련지어 공부해보기 위해서 선정하였다.

내용 요약: 과거, 현재, 그리고 미래의 상태에 대한 추론을 하기 위해 노이즈가 섞여 불완전한 정보를 지속적으로 수집하는 on-line inference process는 정보, 시간, 자원의 제약을 받는다. 베이지안 이론은 그러한 추론에 있어서의 제약이 학습된 모델의 속도와 복잡성에 어떠한 영향을 미치는지를 예측할 수 있다. 본 논문은 이러한 예측을 관련 정보의 제약이 존재하는 세 가지의 시나리오에서, 즉 (1) 모델의 기능적 형태는 알지만 파라미터의 값을 모를 때, (2) 모델의 기능적 형태를 모르지만 가능한 모델의 후보군이 제한되어 있을 때, (3) 모델의 후보군마저 좁히기가 불가능할 정도로 불확실성이 클 때, 베이지안 이론은 효과적인 문제해결을 제공할 수 있다. 이렇게 다양한 상황에서의 확률 최적화를 위해 전통적인 베이지안 추론은 충분한 시간, 광범위한 메모리, 그리고 계산적 리소스의 상당한 투자를 필요로 했다. 그러나 실제 문제해결에의 효과적인 활용을 위해서는 추론이 빠르고 유용하게 이루어져야 하므로 최근 연구들은 추가적인 시간, 기억, 그리고 계산적 제약에서 최적의 추론을 규정하고자 노력해왔다. 본 논문은 이러한 최신 논문들을 소개하면서 결론적으로는 이러한 실제 세계의 제약(real-world constraints) 하에서의 전략의 효과성은 benefit/cost ratio를 극대화하여 측정할 수 있음을 제시한다. 이때 benefit versus cost curve는 benefit versus accuracy와 accuracy versus cost curve라는 두 개의 개별적인 요소를 결합하여 정의될 수 있다. 이러한 접근을 통한 최적화 결과는 전통적인 방식과 다르게 이익의 최대화라는 결과를 도출하지 않는다는 점에서 다양한 과제와 조건에서 사용되는 추론 전략의 복잡성과 비용의 다양성을 특징지을 수 있고, 왜 행위자들이 가끔은 베이지안 해법보다 덜 최적으로 보이는 전략을 선택하는지를 설명할 수 있다.

의의: 베이지안 모델이 적용될 수 있는 여러 제약 상황을 소개한 후, 실용적 활용성 증가를 위해 최근 진행되고 있는 연구들을 사람과 기계의 관점에서 나누어 제시하며 기존 접근과의 차이점과 더 효과적인 지점들을 정리하였다. 또한 이를 바탕으로 실제 세계에서의 제약 조건들을 고려한 최적 추론에 적용할 수 있는 general framework를 제시했다는 의의가 있다.


 Tavoni, G., Balasubramanian, V., & Gold, J. I. (2019). What is optimal in optimal inference?. Current Opinion in Behavioral Sciences, 29, 117-126.