My Posting

Lecture 🧑‍🏫/Coursera

Stanford University Machine Learning 강의(Andrew Ng)

머신러닝 강의의 대명사라고 불리는 강의인 Andrew Ng의 Machine Learning 강의를 들으면서 정리한 내용들로 포스트를 작성하였다. 순전히 학습용으로 작성한 내용이라 부족한 내용이 있을 수도 있는데, 이런 점에 대한 지적은 언제든 환영합니다!! 🤗 Coursera에서 운영하는 이 강의는 무료로 진행되며, 양질의 정보들을 제공한다. 그래서 한 번 시간이 나면 직접 공부해보기를 적극 권장한다. 강의의 링크는 다음과 같다. 강의 링크: https://www.coursera.org/learn/machine-learning?action=enroll Supervised Machine Learning: Regression and Classification In the first course of the ..

Paper Reading 📜/Deep Learning

Zero-shot, One-shot, Few-shot Learning이 무엇일까?

요즘 머신러닝 논문들을 읽어보면 zero-shot, one-shot, few-shot 등을 많이 볼 수 있다. 이번 포스트에서는 이 용어들에 대해 알아보고 이 method들이 어떨 때 사용되는지 알아보았다. Overview 머신러닝에서는 데이터가 충분하지 않을 때 사용할 수 있는 다양한 방법이 있다. N-shot learning은 딥러닝 모델이 5개 이하의 이미지만을 사용해서 학습될 때의 경우이다. N-shot learning 필드는 각 $K$ 클래스의 labeled sample의 수 $n$을 포함하고 있다. 이 N-shot learning은 다음의 3개로 나뉘어진다: zero-shot learning, one-shot learning, few-shot learning. 이 3 method는 traini..

Paper Reading 📜/Natural Language Processing

TinyBERT: Distilling BERT for Natural Language Understanding 논문 리뷰

The overview of this paper BERT와 같은 LM pre-training은 여러 NLP task에 대해 상당히 성능을 향상시켰다. 하지만, PLM은 보통 계산적 비용이 매우 비싸고, 그에 따라서 자원이 제한된 환경에서 실행하는데 어려움이 있다. 논문에서는 Transformer distillation method를 제안해서 추론 속도를 빠르게 하고, 모델 크기도 줄어들게 하고, 그 대신에 정확도는 유지시켰다. 이 Transformer distillation method는 Transformer 기반 모델에 대해 knowledge distillation$($KD$)$을 적용시켰다. 이를 위해 풍부한 지식을 가지고 있는 큰 'teacher' BERT에서 작은 'student' TinyBERT..

Paper Reading 📜/Natural Language Processing

Pre-LN Transformer: On Layer Normalization in the Transformer Architecture 논문 리뷰

The overview of this paper Transformer는 NLP task에서 널리 사용된다. 하지만 Transformer를 학습시키기 위해, 대게 신중하게 디자인된 learning rate warm-up stage를 사용한다. 이 learning rate warm-up stage는 최종 성능에 많은 영향을 끼치지만, optimization의 속도를 저하시키고 더 많은 hyper-parameter tuning을 필요로 한다. 이 논문에서는 learning rate warm-up stage가 왜 필수적인지와 layer normalization$($LN$)$의 위치에 대한 연구를 진행하였다. 구체적으로, 논문에서는 초기화 시 residual block 사이에 layer normalization을..

Paper Reading 📜/Natural Language Processing

Longformer: The Long-Document Transformer 논문 리뷰

The overview of this paper 기존의 Transformer 기반의 모델들은 long sequence 처리가 불가능하였다. 왜냐하면, 계산량이 기하급수적으로 늘어났기 때문이다. 이러한 제약을 해결하기 위해, sequence length에 따라 선형적으로 스케일링되는 attention mechanism을 가지고 있는 Longformer을 소개하였다. 이는 수천개 또는 더 긴 토큰을 가지는 문서에 대해서도 쉽게 처리할 수 있게 만들어주었다. Longformer의 attention mechanism은 기존의 self-attention에 대한 drop-in 대체이고, local windowed attention과 task motivated global attention을 합쳤다. 이전의 long..

Paper Reading 📜/Natural Language Processing

SpanBERT: Improving Pre-training by Representing and Predicting Spans 논문 리뷰

The overview of this paper 논문에서는 텍스트 범위를 더욱 잘 표현하는 pre-training method인 SpanBERT를 소개하였다. 논문에서의 방식은 BERT를 다음과 같이 확장하였다. 1. 랜덤 토큰을 마스킹하기 보다는 인접한 랜덤 토큰을 마스킹 2. Span Boundary Representations$($SBO$)$를 학습시켜 각각의 token representation에 의존하지 않고 masked token의 전체 내용을 예측. SpanBERT는 BERT를 능가하는 성능을 보여줬고, SpanBERT는 QA와 coreference resolution 같은 span selection 문제에서 좋은 성능을 보여줬다. Table of Contents 1. Introduction..

Paper Reading 📜/Natural Language Processing

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 논문 리뷰

The overview of this paper 논문에서는 seq2seq 모델을 pre-training하기 위한 denoising autoencoder인 BART를 소개하였다. BART는 text를 임의의 noising 함수로 손상시키고, model을 학습시켜 기존의 text를 복원하는 방식으로 학습되었다. BART는 Transformer 기반의 NMT architecture을 사용하였다. 이 architecture은 간단함에도 불구하고, BERT와 GPT외에 다른 pre-training scheme을 정규화할 수 있다. 논문에서는 원본 문장의 순서를 임의로 섞고 텍스트 범위가 단일 마스크 토큰으로 대체되는 새로운 in-filling scheme을 사용하여 최상의 성능을 찾는 여러 noising 방식을 ..

Paper Reading 📜/Natural Language Processing

PET: Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference 논문 리뷰

이전에 리뷰했던 논문인 'It's Not Just Size That Metters; Small Language Models Are Also Few-Shot Learners'에서 사용된 PET에 대해 궁금해서, 이번 포스트에서는 PET을 처음으로 소개한 논문인 'Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference'에 대해서 리뷰하였다. It's Not Just Size That Metters; Small Language Models Are Also Few-Shot Learners 논문 리뷰: https://cartinoe5930.tistory.com/entry/Its-Not-Just-Size-Th..

Paper Reading 📜/Computer Vision

CLIP: Learning Transferable Visual Models From Natural Language Supervision 논문 리뷰

OpenAI에서 공개했던 CLIP의 논문을 읽고 리뷰해보았다. 전체 논문을 읽어보고 싶었으나 전체 논문의 분량이 너무 길어서 논문에서 중요하다고 생각되는 부분과 블로그를 참고하여 포스트를 작성하였다. OpenAI의 CLIP 소개 블로그는 여기를 참고하길 바란다. 자 그럼 지금부터 포스트를 시작해보도록 하겠다!! 🔥 CLIP: text와 image를 연결하다 OpenAI에서는 CLIP이라는 새로운 신경망 네트워크를 소개하였다. 이 CLIP은 자연어 supervision으로부터 visual concept를 효율적으로 학습하였다. CLIP은 단순히 인식할 visual category의 이름을 제공하여 GPT-2와 GPT-3처럼 'zero-shot'으로 모든 visual classification 벤치마크에 적..

Paper Reading 📜/Deep Learning

Prompt Engineering이 무엇일까?

여러 LM들의 개발로 인하여 사람들은 전례 없는 새로운 기술들을 만나고 있다. 이 얘기를 여러 포스트에서 했던 것 같은데, ChatGPT는 아직도 무궁무진한 가능성을 보여주고 있다. 이러한 LM들의 성능을 향상시키는 방법으로 많이 사용되고 있는 방법이 Prompt Engineering이다. 본 블로그에서 리뷰한 여러 논문들에서도 등장했던 Prompt Engineering에 대해 더욱 자세한 이해가 필요할 것 같아서 이렇게 포스트를 작성해본다. 🤓 우선 Prompt Engineering에 대해서 알아보기 전에 Prompt가 무엇인지 부터 알아보도록 하자! 🔥 Prompt란? Prompt는 LLM으로부터 응답을 생성하기 위한 입력값을 의미한다. 다음의 그림이 Prompt의 예시이다. 예를 들어 설명하자면, ..

Cartinoe
'분류 전체보기' 카테고리의 글 목록 (10 Page)