My Posting

Paper Reading 📜/Natural Language Processing

구글의 최강 챗봇, LaMDA에 대해 알아보자! Language Models for Dialog Applications 논문 리뷰

먼저 포스트를 시작하기 전에, 요즘의 논문들은 뭐가 이리도 분량이 많은 건지,, 이 LaMDA의 논문만 해도 40페이지를 넘기는 분량을 보여준다. 그래서 본 포스트는 구글에서 직접 LaMDA를 소개한 블로그의 내용도 함께 인용하여 작성되었다는 점을 감안해주셨으면 합니다 ㅎㅎ 그러면 바로 논문 리뷰 포스트로 뛰어 들어가 볼까요~?? The overview of this paper Language Model, 즉 LM은 발전에 발전을 거듭하여 NLP 분야에 사용되지 않는 분야가 없을 정도로 엄청난 성능을 자랑하고 있다. 예를 들어서, 언어 번역, 문서 요약과 같은 분야에도 사용된다. 이들 중에서도 오픈 챗봇은 어떠한 주제에 대해서도 대화를 할 수 있는 능력을 요구한다. 그래서 넓은 분야의 지식과 잠재적 응용..

Paper Reading 📜/Deep Learning

LSTM vs GRU 뭐가 더 나을까?: Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling 논문 리뷰

The overview of this paper RNN 즉, recurrent neural network는 오랜 시간 동안 사용되어온 신경망이다. 하지만, 시간의 흐름에 따라 처리해야 하는 데이터의 양이 많아짐과 task의 복잡도가 증가함에 따라서 RNN으로부터 장기의존성의 문제가 존재함을 알게 되었다. $($장기의존성에 대해 잘 모르신다면 여기를 참고해주세요!!$)$ 이를 해결하기 위해 gating unit을 가지고 있는 새로운 RNN 모델들인 LSTM과 GRU 등이 등장하게 되었다. 이 둘은 상당히 좋은 성능을 보여주지만, 둘 중 어떤 것이 더 우월한 모델인지에 대해서는 의견이 분분했다. 그래서 이 논문은 이러한 논란을 잠재우고자 좀 더 세밀하게 이 두 모델의 성능을 비교해보고자 하였다. Table ..

Paper Reading 📜/Deep Learning

알기 쉽게 LSTM networks 이해하기

The purpose of this post LSTM network는 개발된 지 오래된 모델임에도 불구하고 수많은 분야에서 오랫동안 사용되었던 모델이다. 요즘에는 더 성능이 좋은 모델들이 많이 나오면서 예전 만큼의 명성을 보여주지는 못하고 있지만, LSTM이 정말 대단했던 모델이었다는 점은 변함이 없다. 그래서!! 이번 포스트에서는 이 LSTM network에 대해서 알아보려고 한다. 본 포스트는 colah's blog를 참고하여 작성되었다. Table of Contents 1. RNN $($Recurrent Neural Networks$)$ 2. 장기의존성$($Long-Term Dependencies$)$ 문제 3. LSTM Networks 3-1. LSTM의 핵심 아이디어 3-2. 단계 별로 LSTM..

Paper Reading 📜/Deep Learning

Distilling the Knowledge in a Neural Network 논문 리뷰

Why I read this paper? 지난 번 포스트에서 다뤘던 DistilBERT에 대해서 자세히 공부하던 중 이 DistilBERT의 메인이 되는 Knowledge Distillation에 대해서 더욱 자세하게 알아보고자 Knowledge Distillation에 대해 처음으로 소개한 이 논문을 찾아 읽게 되었다. 이 Knowledge Distillation은 현재 신경망 모델들의 문제점인 급격하게 증가하는 파라미터 수로 인한 모델의 용량 문제를 완화시켜 줄 수 있는 방법으로 조금의 성능 손실이 있긴 해도 획기적인 시간 절약을 보여줬다. 본 포스트는 기존의 포스트들과는 다르게 좀 더 유연한 전개를 가져가 보고자 한다. $($노력은 했으나, 그렇지 않을 수도 있습니다~ ^^$)$ The overvi..

Paper Reading 📜/Natural Language Processing

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter 논문 리뷰

본 포스트를 읽기 전에 DistilBERT에 사용된 메인 테크닉인 Knowledge Distillation에 대해서 먼저 학습하시길 바랍니다. 다음의 포스트를 참고하시오. The overview of this paper NLP에서 large-scale의 pre-trained model을 활용하여 transfer learning을 처리하는 일이 흔해지면서, 이 거대한 규모의 모델을 한정된 자원으로 어떻게 구동할지는 아직도 어려운 문제로 남아있다. 그래서 이 논문에서는 작은 규모의 general purpose language representation model임에도 불구하고, 다양한 분야의 task에 대해 좋은 성능을 보여주는 DistilBERT를 제안하였다. 이 DistilBERT는 BERT에 비해 40..

Paper Reading 📜/Natural Language Processing

It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners 논문 리뷰

이 논문에서는 PET을 이용한다. 이 PET에 대해 궁금하다면 다음의 포스트를 확인하길 바란다. PET 논문 리뷰: https://cartinoe5930.tistory.com/entry/PET-Exploiting-Cloze-Questions-for-Few-Shot-Text-Classification-and-Natural-Language-Inference-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 PET: Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference 논문 리뷰 이전에 리뷰했던 논문인 'It's Not Just Size That Metters; Small Langua..

Paper Reading 📜/Mathematics(선형대수, 확률과 통계, 미적분학)

프리드버그 선형대수학 - 7장 표준형

Friedberg Linear Algebra 프리드버그 선형대수학을 공부하면서 각각의 장 별로 정리를 하였다. Table of Contents 1. 벡터공간 2. 선형변환과 행렬 3. 기본행렬연산과 연립일차방정식 4. 행렬식 5. 대각화 6. 내적공간 7. 표준형$($This post$)$ The overview of this chapter 7장에서는 표준형에 대해 학습하였다. 조르당 표준형, 최소다항식에 관한 내용을 다뤘다. 7.1 조르당 표준형 I : 이론적 측면 유한차원 벡터공간 $\textbf{V}$의 선형연산자 $\textbf{T}$의 특성다항식이 완전히 인수분해된다고 가정하자. 앞서 5.2절에서 $\textbf{T}$가 대각화가능한지는 $\textbf{T}$에 대응하는 순서기저의 합집합이 $\..

Paper Reading 📜/Mathematics(선형대수, 확률과 통계, 미적분학)

프리드버그 선형대수학 - 6장 내적공간

Friedberg Linear Algebra 프리드버그 선형대수학을 공부하면서 각각의 장 별로 정리를 하였다. Table of Contents 1. 벡터공간 2. 선형변환과 행렬 3. 기본행렬연산과 연립일차방정식 4. 행렬식 5. 대각화 6. 내적공간$($This post$)$ 7. 표준형 The overview of this chapter 6장에서는 내적공간에 대해서 학습하였다. 기본 주제인 내적공간, 그람-슈미트 직교화, 직교여공간, 수반연산자, 정규연산자, 자기수반연산자, 직교연산자, 유니타리 연산자, 정사영, 스펙트럼 정리에 대해 학습하였다. 이외의 내적공간의 응용에 대해서는 따로 작성하지 않았다. 6.1 내적과 노름 $\textbf{R}^{2}$와 $\textbf{R}^{3}$에서 각, 길이, ..

Paper Reading 📜/Mathematics(선형대수, 확률과 통계, 미적분학)

프리드버그 선형대수학 - 5장 대각화

Friedberg Linear Algebra 프리드버그 선형대수학을 공부하면서 각각의 장 별로 정리를 하였다. Table of Contents 1. 벡터공간 2. 선형변환과 행렬 3. 기본행렬연산과 연립일차방정식 4. 행렬식 5. 대각화$($This post$)$ 6. 내적공간 7. 표준형 The overview of this chapter 5장에서는 고윳값, 고유벡터, 대각화를 학습하였다. 이 주제의 가장 중요한 응용은 행렬 극한을 계산하는 것이다. 5.4절에서는 불변 부분공간과 케일리-해밀턴 정리를 다룬다. 5.1 고윳값과 고유벡터 앞서 2.5절에서 $\textbf{R}^2$에서 직선 $y=2x$에 대한 대칭 공식을 유도하였다. 유도 과정의 핵심은 $[\textbf{T}]_{\beta^{'}}$이 대..

Paper Reading 📜/Mathematics(선형대수, 확률과 통계, 미적분학)

프리드버그 선형대수학 - 4장 행렬식

Friedberg Linear Algebra 프리드버그 선형대수학을 공부하면서 각각의 장 별로 정리를 하였다. Table of Contents 1. 벡터공간 2. 선형변환과 행렬 3. 기본행렬연산과 연립일차방정식 4. 행렬식$($This post$)$ 5. 대각화 6. 내적공간 7. 표준형 The overview of this chapter 4장에서는 행렬식에 대하여 학습하였다. 행렬식은 과거에는 대단히 중요한 주제였으나, 최근에는 그 중요성이 많이 줄었다. 결과적으로 이 장에서는 두 가지 선택지를 제공한다. 행렬식을 이론적으로 완벽히 규명하는 길$($4.1절 부터 4.3절$)$과 이후 장에서 사용되는 행렬식에 대한 중요한 사실들을 요약한 길$($4.4절$)$이다. 이는 당신의 행렬식에 대한 필요에 따라..

Cartinoe
'분류 전체보기' 카테고리의 글 목록 (12 Page)