Friedberg Linear Algebra 프리드버그 선형대수학을 공부하면서 각각의 장 별로 정리를 하였다. Table of Contents 1. 벡터공간 2. 선형변환과 행렬 3. 기본행렬연산과 연립일차방정식$($This post$)$ 4. 행렬식 5. 대각화 6. 내적공간 7. 표준형 The overview of this chapter 3장에서는 벡터공간과 선형변환을 이용한 연립일차방정식의 풀이법을 학습하였다. 3.1 기본행렬연산과 기본행렬 이번 절에서는 3장에서 두루 사용할 기본연산을 정의한다. 이후 기본연산을 사용하여 선형변환의 랭크를 계산하고 연립일차방정식의 해를 구한다. 기본행렬연산에는 두 종류$($행연산, 열연산$)$이 있으며 행연산이 더 유용하다. 기본연산은 연립일차방정식의 변수를 소거할..
Friedberg Linear Algebra 프리드버그 선형대수학을 공부하면서 각각의 장 별로 정리를 하였다. Table of Contents 1. 벡터공간 2. 선형변환과 행렬$($This post$)$ 3. 기본행렬연산과 연립일차방정식 4. 행렬식 5. 대각화 6. 내적공간 7. 표준형 The overview of this chapter 2장에서는 선형변환과 행렬의 관계$($영공간, 상공간, 선형변환의 행렬표현, 동형사상, 좌표변환$)$을 학습하였다. 2.1 선형변환, 영공간, 상공간 정의역이 $\textbf{V}$이고, 공역이 $\textbf{W}$인 함수 $\textbf{T}$를 $\textbf{T} : \textbf{V} \to \textbf{W}$라 표기한다. 정의 $\textbf{V}$와 $..
Friedberg Linear Algebra 프리드버그 선형대수학을 공부하면서 각각의 장 별로 정리를 하였다. Table of Contents 1. 벡터공간$($This post$)$ 2. 선형변환과 행렬 3. 기본행렬연산과 연립일차방정식 4. 행렬식 5. 대각화 6. 내적공간 7. 표준형 The overview of this chapter 1장에서는 벡터공간의 기본적인 이론$($부분공간, 일차결합, 일차독립과 일차종속, 기저, 차원$)$에 대해 학습하였다. 1.1 개론 힘, 속도, 가속도 등 많은 물리적 개념은 크기 뿐만 아니라, 방향 정보도 함께 가지고 있다. 이처럼 크기와 방향을 모두 가진 물리량을 '벡터$($vector$)$' 라고 한다. 벡터는 흔히 화살표로 표현하며, 벡터의 크기는 화살표의 길..
What is this? machine learning에서 모델이나 패턴의 분류 성능 평가에서 사용되는 지표이다. 이를 통해 모델의 분류 성능을 더 자세하게 파악이 가능하다. 이러한 결과를 이용하여 모델의 개선 방향성을 잡아갈 수 있게 된다. Table of Contents 1. Precision, Recall, and Accuracy 1-1. Precision$($정밀도$)$ 1-2. Recall$($재현율$)$ 1-3. Accuracy$($정확도$)$ 1-4. F1-score 2. 그 외의 지표들 2-1. ROC curve 2-2. AUC 본문으로 들어가기 전에, confusion matrix에 대해 알아보겠다. confusion matrix는 훈련을 통한 prediction의 성능을 측정하기 위해 ..
The overview of this paper 이 논문에서는 새로운 vision Transformer인 Swin Transformer을 제안하였다. 이 Swin Transformer는 computer vision에 대해 general-purpose 척추같은 역할을 한다. 시각적 특성의 다양한 scale과 text에 비해 고해상도인 이미지와 같은 computer vision과 NLP 두 영역의 차이 때문에, Transformer을 computer vision에 적용시키는데 많은 문제가 있었다. 이러한 차이점을 극복하기 위해, 논문에서는 representation이 Shifted Windows와 함께 계산되는 hierarchical Transformer을 제안하였다. shifted windowing 기법은..
The overview of this paper Transformer architecture는 NLP 분야에서 매우 권위적이다. 하지만, 이를 computer vision에 사용하는 예는 극히 제한되어 있다. convolutional network의 사이에 attention을 사용하거나, convolutional network의 전반적인 구성을 바꾸긴 하지만, 절대 전반적인 구조를 바꾸지는 않는다. 논문에서는 이러한 CNN에 의존할 필요 없이 image의 patch에 직접적으로 Transformer를 적용하는 것이 더 좋은 성능을 보여줬다. 거대한 양의 이미지 데이터에서 pre-train을 하고, 이미지 벤치마크에 적용한 결과, Vision Transformer$($ViT$)$는 더욱 적은 계산 비용으로..
What is the purpose of this post? 이번 포스트에서는 CNN network의 역사에 대해 알아보았다. CNN에는 여러가지 network가 있었는데, 예를 들어 LeNet과 AlexNet 등이 있었다. 이번 포스트에서는 어떠한 CNN network들이 있었는지 알아보았다. Table of Contents 1. LeNet 2. AlexNet 3. VGGNet 4. GoogLeNet 5. ResNet 6. ResNeXt 7. Xception 8. MobileNet 9. DenseNet 10. EfficientNet 11. ConvNext 1. LeNet$($1998$)$ Gradient-Based Learning Applied to Document Recognition LeNet은 손..
Pre-trained Language Modeling paper reading 요즘 NLP 분야에서 뜨거운 감자인 pre-trained Language Modeling에 관한 유명한 논문들을 읽고 리뷰를 하였다. 이번 포스트에서는 저번 포스트인 GPT-1의 후속 모델인 GPT-2에 대해서 리뷰하였다. ELMo: 'Deep contextualized word representations' reading & review BERT: 'Pre-training of Deep Bidirectional Transformers for Language Understanding' reading & review GPT-1: 'Improving Language Understanding by Generative Pre-Trai..
The overview of this paper 이 논문에서는 두 개의 RNN으로 구성된 RNN Encoder-Decoder로 불리는 새로운 신경망 모델을 제안하였다. 하나의 RNN은 고정된 길이의 벡터 representation에 심볼의 시퀀스를 인코드하였고, 다른 하나는 또 다른 심볼의 시퀀스에 representation을 디코드하였다. 제안된 모델의 인코더와 디코더는 source sequence가 주어졌을 때, target sequence의 조건부 확률을 최대화하기 위해 공동으로 학습된다. 통계적 기계 번역 시스템의 성능은 기존 로그 선형 모델의 추가 기능으로 RNN Encoder-Decoder에서 계산된 phrase pair의 조건부 확률을 사용하여 개선됨을 경험적으로 확인할 수 있었다. 정성적으..
The overview of this paper BERT에서는 token을 [MASK]로 바꾸면서 입력에 손상을 주고, 이렇게 대체된 토큰을 기존의 토큰으로 재구조하는 Masked language modeling$($MLM$)$ pre-training 방법을 사용한다. 이러한 방법은 dowastream NLP task을 진행할 때, 좋은 결과를 보여주지만, 효과적으로 진행하기 위해서는 거대한 양의 컴퓨팅이 수행되어야 한다. 이에 대한 대안으로, 논문에서는 replaced token prediction이라는 sample-efficient 한 pre-training task를 제안하였다. 그다음에, 모델이 손상된 토큰의 기존 정체성을 예측하게 학습시키는 것 대신에, 손상된 입력의 각 토큰이 generator..