'Paper Reading 📜/Deep Learning' 카테고리의 글 목록

Zero-shot, One-shot, Few-shot Learning이 무엇일까?

2023.03.12

요즘 머신러닝 논문들을 읽어보면 zero-shot, one-shot, few-shot 등을 많이 볼 수 있다. 이번 포스트에서는 이 용어들에 대해 알아보고 이 method들이 어떨 때 사용되는지 알아보았다. Overview 머신러닝에서는 데이터가 충분하지 않을 때 사용할 수 있는 다양한 방법이 있다. N-shot learning은 딥러닝 모델이 5개 이하의 이미지만을 사용해서 학습될 때의 경우이다. N-shot learning 필드는 각 $K$ 클래스의 labeled sample의 수 $n$을 포함하고 있다. 이 N-shot learning은 다음의 3개로 나뉘어진다: zero-shot learning, one-shot learning, few-shot learning. 이 3 method는 traini..

Paper Reading 📜/Deep Learning

Prompt Engineering이 무엇일까?

2023.03.01

여러 LM들의 개발로 인하여 사람들은 전례 없는 새로운 기술들을 만나고 있다. 이 얘기를 여러 포스트에서 했던 것 같은데, ChatGPT는 아직도 무궁무진한 가능성을 보여주고 있다. 이러한 LM들의 성능을 향상시키는 방법으로 많이 사용되고 있는 방법이 Prompt Engineering이다. 본 블로그에서 리뷰한 여러 논문들에서도 등장했던 Prompt Engineering에 대해 더욱 자세한 이해가 필요할 것 같아서 이렇게 포스트를 작성해본다. 🤓 우선 Prompt Engineering에 대해서 알아보기 전에 Prompt가 무엇인지 부터 알아보도록 하자! 🔥 Prompt란? Prompt는 LLM으로부터 응답을 생성하기 위한 입력값을 의미한다. 다음의 그림이 Prompt의 예시이다. 예를 들어 설명하자면, ..

Paper Reading 📜/Deep Learning

LSTM vs GRU 뭐가 더 나을까?: Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling 논문 리뷰

2023.01.30

The overview of this paper RNN 즉, recurrent neural network는 오랜 시간 동안 사용되어온 신경망이다. 하지만, 시간의 흐름에 따라 처리해야 하는 데이터의 양이 많아짐과 task의 복잡도가 증가함에 따라서 RNN으로부터 장기의존성의 문제가 존재함을 알게 되었다. $($장기의존성에 대해 잘 모르신다면 여기를 참고해주세요!!$)$ 이를 해결하기 위해 gating unit을 가지고 있는 새로운 RNN 모델들인 LSTM과 GRU 등이 등장하게 되었다. 이 둘은 상당히 좋은 성능을 보여주지만, 둘 중 어떤 것이 더 우월한 모델인지에 대해서는 의견이 분분했다. 그래서 이 논문은 이러한 논란을 잠재우고자 좀 더 세밀하게 이 두 모델의 성능을 비교해보고자 하였다. Table ..

Paper Reading 📜/Deep Learning

알기 쉽게 LSTM networks 이해하기

2023.01.27

The purpose of this post LSTM network는 개발된 지 오래된 모델임에도 불구하고 수많은 분야에서 오랫동안 사용되었던 모델이다. 요즘에는 더 성능이 좋은 모델들이 많이 나오면서 예전 만큼의 명성을 보여주지는 못하고 있지만, LSTM이 정말 대단했던 모델이었다는 점은 변함이 없다. 그래서!! 이번 포스트에서는 이 LSTM network에 대해서 알아보려고 한다. 본 포스트는 colah's blog를 참고하여 작성되었다. Table of Contents 1. RNN $($Recurrent Neural Networks$)$ 2. 장기의존성$($Long-Term Dependencies$)$ 문제 3. LSTM Networks 3-1. LSTM의 핵심 아이디어 3-2. 단계 별로 LSTM..

Paper Reading 📜/Deep Learning

Distilling the Knowledge in a Neural Network 논문 리뷰

2023.01.26

Why I read this paper? 지난 번 포스트에서 다뤘던 DistilBERT에 대해서 자세히 공부하던 중 이 DistilBERT의 메인이 되는 Knowledge Distillation에 대해서 더욱 자세하게 알아보고자 Knowledge Distillation에 대해 처음으로 소개한 이 논문을 찾아 읽게 되었다. 이 Knowledge Distillation은 현재 신경망 모델들의 문제점인 급격하게 증가하는 파라미터 수로 인한 모델의 용량 문제를 완화시켜 줄 수 있는 방법으로 조금의 성능 손실이 있긴 해도 획기적인 시간 절약을 보여줬다. 본 포스트는 기존의 포스트들과는 다르게 좀 더 유연한 전개를 가져가 보고자 한다. $($노력은 했으나, 그렇지 않을 수도 있습니다~ ^^$)$ The overvi..

Paper Reading 📜/Deep Learning

CNN network의 역사

2022.12.14

What is the purpose of this post? 이번 포스트에서는 CNN network의 역사에 대해 알아보았다. CNN에는 여러가지 network가 있었는데, 예를 들어 LeNet과 AlexNet 등이 있었다. 이번 포스트에서는 어떠한 CNN network들이 있었는지 알아보았다. Table of Contents 1. LeNet 2. AlexNet 3. VGGNet 4. GoogLeNet 5. ResNet 6. ResNeXt 7. Xception 8. MobileNet 9. DenseNet 10. EfficientNet 11. ConvNext 1. LeNet$($1998$)$ Gradient-Based Learning Applied to Document Recognition LeNet은 손..

티스토리툴바