CS330 Lecture 1 Introduction & Overview
얼마전 페이스북에서 Multi-task and Meta Learning 이라는 제목을 달고있는 Stanford CS330을 달고 있는 강의를 보아서 들어보기로 했다. 14개 정도의 강의라 배속으로 적당히 빨리 들어봐야겠다.
- 강의 사이트 http://cs330.stanford.edu/
- 강의 비디오 https://www.youtube.com/playlist?list=PLoROMvodv4rMC6zfYmnD7UG3LVvwaITY5
시간이 많이 흘러서(강의 비디오는 2019년 가을) 내용이 많이 바뀌겠지만, 해당 내용은 발표 슬라이드로 어떻게 채워봐야겠다.
- 하나의 environment에서 하나의 task를 배우는데 여기에는 많은 supervision과 guidance가 필요하다. 이건 강화학습이나 로보틱스, speech recognition등등 많은 분야에 적용되는 이야기
- deep multi-task, meta-learning을 신경써야 하는 이유
- 크고 다양한 데이터를 이용하고 큰 모델을 사용한다면 머신러닝 모델이 잘 generalize하는 것은 기존에 잘 알려져 있다.
- 하지만 large dataset을 이용할 수 없다면 이야기는 달라진다. (medical imaging이나 robotics, medicine, recommendations 등등을 생각해보자) 각각의 태스크를 학습하기 힘들어진다.
- 또는 long tail dataset에 대해서 학습한다고 생각해보자. 일반적인 supervised learning만으로는 학습하기 힘들다.
- 아니면 빠르게 새로운 태스크에 대응해야 할 때는? -> 사람이라면 기존의 지식을 기반으로 빠르게 학습이 가능하다.
- 위와 같은 상황에서 multi-task learning이나 meta learning이 필요하다.
- 크고 다양한 데이터를 이용하고 큰 모델을 사용한다면 머신러닝 모델이 잘 generalize하는 것은 기존에 잘 알려져 있다.
- 여기서 multi-task/meta learning을 사용하기 위해서는 여러 태스크가 같은 structure를 공유해야 한다.
- 만약 관계가 없어보이더라도 한국어 데이터라면 최소한 한국어의 룰에 대한 부분은 공유한다는 점을 생각해보고, 언어는 비슷한 목적을 위해 만들어졌다는 점을 생각해보면 임의의 태스크보다는 훨씬 관계있어 보인다고 한다.
- informal하게 강의 주제를 정의해보면
- multitask learning problem: learn all of tasks more quickly or more proficiently than learning them independently.
- meta learning problem: given data/experience on previous tasks, learn a new task more quickly and/or more proficiently.
- 그럼 domain adaptation과 무엇이 다를까.
- domain adaptation이 배우는 것은 새로운 학습 데이터가 이전 학습 데이터에서의 out of distribution이라는 점 정도
- 근데 multi task learning은 single task learning으로 볼 수 있지 않나요?
- dataset의 합집합으로 보고 loss를 각각 태스크의 loss의 합으로 보면 그렇다.
- 근데 해당 방법은 multi task의 하나의 방법이지 전부가 아니고, 서로 다른 태스크라는 정보로 더 나은 성능을 위해 시도해볼 수 있는 것들이 있다.
March 24, 2021
Tags:
cs330