Nov 24th Journal Club

Themes: AI, genome biology, aesthetic evaluation, reliable science, open science, high-reliability organizations, data management

Presenters: YP (Yong-Ha Park), EL (Eunji Lee), GK (Gyuyi Kang)


Topic 1: Does human–AI collaboration lead to more creative art? Aesthetic evaluation of human-made and AI-generated haiku poetry? [YP]

선정 이유

AI generation 기술이 이제 그림을 넘어서 글에도 적용이 되고 있음. 1. AI-generated art work의 아름다움에 대한 평가 와 2. AI-generated art work을 human-generated art work에서 구분하는 능력에 대한 측정 및 Algorithm Aversion현상에 대해 다루고 있어 깊은 흥미를 이끔.

한계점

  1. Algorithm aversion에 대한 확인만 있을뿐 그 이상으로 해결책 등을 제시하지는 못 함

Topic 2: DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome [EL]

선정 이유

DNA의 전체 Sequence 데이터를 NLP 알고리즘인 BERT로 분석한 논문이다. DNA 전체 서열 데이터는 크기가 매우 크기 때문에 한 번에 end-to-end로 분석하기 쉽지 않은데 많은 GPU 리소스를 사용하여 pretraining한 연구라 선정해보았다. 또한 DNA 서열의 특징을 언어적인 특성과도 연결시켜 딥러닝 NLP 알고리즘을 적용한 논리를 처음 접한 논문이었다.

내용 요약

1000 base pair를 하나의 sample로, window size는 6개의 base pair로 학습을 시키는 것이 가장 성능이 좋았다. 전체 데이터를 학습하는 데에 (pretraining) 8개의 GPU로 25일이 걸렸다. Transcription factor binding site 예측 task 등에서 기존 CNN 모델로 DNA 서열을 분석했던 ‘DeepSEA’ 모델보다 좋은 성능을 보였다.

한계점

(이 논문에서는 분석하지 않았지만) 선행연구와 마찬가지로 DNA 서열 데이터만 갖고 질병 예측을 하는 task에서는 성능이 좋지 않았다 (GeneBERT model; Mo et al., 2021).

의의

DNA 서열의 특징을 언어적인 특성과 연결시키는 논리는 있어왔는데, BERT 모델로 DNA 서열의 raw data를 end-to-end로 처음으로 분석했다는 데 의의가 있다.

비고

pre-training of DNABERT model is resource-intensive (about 25 days on 8 NVIDIA 2080Ti GPUs) → 소스코드와 pretrained model 공개해놓음 github: https://github.com/jerryji1993/DNABERT

참고 문헌

GeneBERT 논문: https://arxiv.org/pdf/2110.05231.pdf

Topic 3: Minimizing Mistakes in Psychological Science [GK]

선정 이유

심리학 연구실에서 자주 일어나는 실수를 알아봄으로써 실수를 줄이는 방법을 알아보기 위해 이 논문을 선정하였다.

내용 요약

실험실 관행을 개선하기 위해서는 먼저 실수, 실패 및 사고가 엄청난 결과를 초래할 수 있는 고위험 분야의 관행을 고려하였다. 이 실험에서는 이러한 관행들을 2014년부터 5가지 원칙을 채택하고 따라왔다. 채택한 다섯 가지 원칙은 실제 상황에 따라 조직에 맞는 관행들을 실행하였다.

의의

연구를 하다 보면 연구자가 원하는 방향으로 연구가 진행이 되고는 한다. 높은 신뢰성을 갖고 있는 연구를 구현하는게 중요하다면 이런 원칙들을 알고 적용하는 것은 연구자에게 중요한 가치가 있다.

비고

Rouder, J. N., Haaf, J. M., & Snyder, H. K. (2019). Minimizing mistakes in psychological science. Advances in Methods and Practices in Psychological Science, 2(1), 3-11.