SimCSE 리뷰 & KR-BERT 이용해서 구현해보기
얼마전에 GitHub explore reposistories 탭에서 SimCSE라는 레포지토리를 발견해서 논문을 간단하게 보았다. Contrastive Learning 할 때 다른 dropout을 적용한 자신을 positive pair로, 배치 내부의 다른 인스턴스를 negative pair로 사용하는 방법인데, “이게...
Engineering blog
얼마전에 GitHub explore reposistories 탭에서 SimCSE라는 레포지토리를 발견해서 논문을 간단하게 보았다. Contrastive Learning 할 때 다른 dropout을 적용한 자신을 positive pair로, 배치 내부의 다른 인스턴스를 negative pair로 사용하는 방법인데, “이게...
https://github.com/facebookresearch/dino에서 볼 수 있듯 DINO가 Self supervised learning만으로도 굉장히 신기한 Self Attention 결과가 나오길래 CLIP으로도 해보고 싶어서 해봤다.
종종 개인적으로 궁금한 것들이 있을 때 실험을 해보는데, 각각 데이터셋을 불러오는 코드를 작성하니 너무 파편화되어 있기도 하고 찾아오기도 힘들어서 한국어/한글 관련 데이터셋 라이브러리를 하나 만들기로 했다.
PTED 보면서 내용 + 신기한 것들 메모. 부스 형식으로 운영되어서 내가 Gather Town에서 돌아다니는 형식이었고 이야기도 많이 나눌 수 있어서 좋았다.
그냥 제목이 재밌어 보여서 읽어보았고, 생각보다 신기했다. Transformer Architecture를 더 잘 활용하기 위해서 더 많은 인사이트가 필요할 것이라 생각하는데, 그를 위해서 읽어본 논문이다.
SentencePiece 기존 모델을 유지하면서 사용할 일이 있어서 해봤다.
2강이고 Multi-Task & Meta-Learning Basics이다.
얼마전 페이스북에서 Multi-task and Meta Learning 이라는 제목을 달고있는 Stanford CS330을 달고 있는 강의를 보아서 들어보기로 했다. 14개 정도의 강의라 배속으로 적당히 빨리 들어봐야겠다.
얼마전 tensorflow/community/pull/346을 보면서 놀란 점이 있다. 바로 tf.nn.sparse_softmax_cross_entropy_with_logits
, tf.nn.softmax_cross_entropy_with_logits
연산이 non-deterministic하다는 것인데, 수식상으로 생각해볼때 저 Ops들이 그렇다는 것을 알기 힘들었다. 매우 자주 사용하는 Op들이고,
얼마전에 읽어봤었던 논문인데 활용할 필요성이 생겨 리뷰해보았다. Google Research 쪽에서 작성한 논문으로 보이고, 아직 preprint 상태이다. arxiv 링크는 https://arxiv.org/pdf/2010.03802.pdf. 간단하게 진행하는 논문 리뷰에서 할 예정이라 pdf로 작성했다.
최근 모델 학습을 진행하면서 필요 이상으로 메모리를 많이 먹는 느낌이 있어 프로파일링을 해보았다. TensorBoard profile 기능의 memory_profile을 보다보니 SparseCategoricalCrossentropy와 softmax가 굉장히 많은 메모리를 먹고 있었다.
TensorFlow Everywhere Korea(festa, fb) 에서 발표한 “편리한 NLP를 위한 TensorFlow-Text와 RaggedTensor”를 준비하면서 작성한 포스트입니다.
leetcode를 풀다가 중복제거에 사용할 수 있는 STL 함수가 없을까 찾아보았는데, std::unique
가 있었다. 근데 동작이 잘 이해가 안가서 찾아보았다.
Building Machine Learning Pipelines를 최근 읽고 있는데, 해당 책에서 말하는 논문이었고, 읽어보면 좋을 것 같아 읽어보았다. 논문 링크는 여기이다.