CS330 Lecture 2 Multi-Task & Meta-Learning Basics

2강이고 Multi-Task & Meta-Learning Basics이다.

Multitask learning

MultiTask Learning objective: \(\min_\theta \sum^T_{i=1}\mathscr{L}_i(\theta, \mathscr{D}_i)\) (Loss: \(\mathscr{L}\), Dataset: \(\mathscr{D}\))
가장 쉽게 multitask를 하는 방법: 여러 Expert Model을 만든 다음 태스크 종류에 따라서 사용한다. -> No Shared Parameters.
또 다른 방법: Classifier에 태스크 인덱스를 피쳐로 넣어준다.
- 의견: one-hot vector로 넣어준다는 느낌인 것 같은데 학습이 잘 될까? 다른 classifier를 쓰는 편이 좋아보이는데
또 다른 방법들
- Multi-head classification -> 일반적으로 내가 알고 있는 Multi-task learning. MT-DNN을 생각하면 된다.
- Input vector에 태스크의 임베딩을 곱해주어서 분류하는 방법 (multiplicative gating)
  - Multiplicative conditioning은 네트워크와 head들을 전부 한꺼번에 generalize한다.
  - 의견: 하지만 적용할 부분을 찾기가 힘들어 보인다. 비슷한 종류의 분류를 해야하고, 레이블 갯수가 같아야하며, 태스크 간의 레이블이 각각 상관관계가 있어야 하는 것처럼 보인다.
Conditioning 방법을 고르는 법
- Problem Dependent
- Largely guided by intuition or knowledge of the problem
- currently more of an art than a science

Vanilla MTL Objective가 잘 동작하긴 하는데, weighted sum을 쓸때도 많다. \(\min_\theta \sum^T_{i=1}w_i\mathscr{L}_i(\theta, \mathscr{D}_i)\)
- -> 나도 이 방법을 더 많이 씀
weighting하는 방법은 여러가지가 있는데 아래정도
- various heuristics (Chen et al. GradNorm. ICML 2018)
- use task uncertainty (see Kendall et al. CVPR 2018) https://arxiv.org/abs/1705.07115
  - 간단히 살펴봤는데 이게 일반적인 경우에 좋아보인다.
- optimize for the worst-case task loss for fairness and robustness

Negative transfer: if independent networks work the best
- Maybe optimization problem.
  - caused by cross-task interference.
  - Tasks may learn at different rates.
- maybe representational capacity
  - MT networks often need to be much larger than single-task model
- if nagative transfer problem occurs, share less parameters.
Overfitting
- Share more paraemters

슬라이드에는 Transfer Learning과의 비교가 존재. 비디오에는 meta learning과의 비교가 존재

MTL: Solve multiple tasks at once
Transfer Learning: Solve target tasks after solving source task by transferring knowledge learned from source task.
- Key assumption: Cannot acces source task dataset during transfer
Transfer learning is a valid solution to MTL (not vice versa)

April 6, 2021

Tags: cs330