'Lecture 🧑‍🏫/Coursera' 카테고리의 글 목록

[Machine Learning] Machine Learning Algorithm Application

2023.03.28

Prioritizing What to Work On System Desing Example: 스팸 메일을 분류한다고 할 때, 이메일 세트가 주어지면 각 이메일에 대한 벡터를 만들어야 한다. 이 벡터의 각각의 entry는 단어들을 나타낸다. 벡터는 일반적으로 데이터셋에서 흔하게 발견되는 단어들을 모아서 10,000개에서 50,000개의 entry를 포함하고 있다. 만약 이메일에서 단어가 찾아지면, 이에 대한 entry를 1로 하고, 찾아지지 않으면 entry를 0으로 한다. $x$ 벡터들이 모두 준비되면 알고리즘을 학습시키고 최종적으로 이메일에 적용해서 스팸인지 아닌지를 분류하는데 사용한다. 어떻게 하면 분류기의 성능을 향상시킬 수 있을까? 많은 데이터를 수집하기 정교한 feature 사용$($ex. 스팸..

Lecture 🧑‍🏫/Coursera

[Machine Learning] Bias vs Variance

2023.03.27

Diagnosing Bias vs Variance 이 섹션에서는 polynomial d와 hypothesis의 underfitting 혹은 overfitting의 관계에 대해서 조사하였다. 잘못된 예측에 공헌하는 bias와 variance를 구분하였다. 높은 bias는 underfitting을 야기하고, 높은 variance는 overfitting을 야기한다. 따라서 이 둘 간의 황금 평균을 찾아야 할 필요가 있다. polynomial의 degree d를 증가시킬 수록 training error는 감소하는 경향이 있다. 동시간대에 cross validation error는 일정 포인트까지는 감소하는 경향이 있고, 그 다음에는 d값이 오름에 따라 상승하면서, convex curve를 만들어 낸다 $($최솟..

Lecture 🧑‍🏫/Coursera

[Machine Learning] Evaluating a Learning Algorithm

2023.03.27

Evaluating a Hypothesis 다음을 통해 예측 오류에 대한 몇 가지 문제 해결을 수행한다. 더 많은 training example을 가져오기 작은 feature 세트를 시도 추가적인 feature을 시도 다항의 feature을 시도 $\lambda$ 값을 늘리거나 줄이기 이제 새로운 hypothesis를 평가하는 방법에 대해 알아보자. hypothesis는 training example에 대해 낮은 오차를 가지고 있을 수 있지만, 아직 부정확하다 $($overfitting 때문$)$. 따라서 hypothesis를 평가하기 위해서는 주어진 training example 데이터셋에 대해 두 개의 세트로 분리하여야 한다: training set & test set. 보통 training set는..

Lecture 🧑‍🏫/Coursera

[Machine Learning] Backpropagation in Practice

2023.03.27

Gradient Checking Gradient checkin 즉, 기울기 체크는 역전파가 의도한 대로 잘 되고 있는지 보장해준다. cost function의 미분을 다음을 사용하여 근사할 수 있다. 여러 개의 세타 행렬을 사용하면, $\theta_{j}$에 관한 미분을 다음과 같이 근사할 수 있다. $\epsilon$은 $\epsilon = 10^{-4}$ 같은 작은 값이어야 적절하게 잘 작동한다는 것을 알 수 있다. $\epsilon$의 값이 너무 작으면 수치적 문제가 발생할 수도 있다. 그래서 $\theta_{j}$ 행렬에 epsilon을 추가하거나 빼기만 한다. 이전에 deltaVector를 어떻게 계산하는지에 대해 알아보았다. 그래서 gradApprox를 계산할 수 있게 되면, $gradAppr..

Lecture 🧑‍🏫/Coursera

[Machine Learning] Cost Function & Backpropagation

2023.03.26

Cost Function cost function을 설명할 때 사용할 몇 개의 변수들을 정의해보도록 하자. $L$: 네트워크에 있는 총 레이어의 수 $s_l$: 레이어 $l$에 있는 unit의 수 $K$: 출력 유닛과 클래스의 수 이 변수들을 신경망 네트워크에서 떠올려보면, 많은 출력 노드들을 가지게 될 것이다. $h_{\theta}(x)_{k}$는 $k$번째 출력으로 결과로 내놓는 hypothesis를 나타낸다. 신경망을 위한 cost function은 우리가 logistic function에서 사용한 것의 일반화이다. 정규화된 logistic regression의 cost function을 떠올려보도록 하자. 신경망 네트워크에 대해서는 이것의 형태가 살짝 바뀌게 된다. 여러 개의 출력 노드를 설명하기..

Lecture 🧑‍🏫/Coursera

[Machine Learning] Neural Networks

2023.03.20

Model Representation I 신경망을 사용해서 어떻게 hypothesis function을 표현할 지 생각해보도록 하자. 매우 간단한 수준에서, 뉴런은 전기적 신호로 입력을 받아서 출력을 채널링하는 계산 유닛으로 생각할 수 있다. 모델의 개념으로 생각해보면 입력은 feature $x_1, \cdots x_n$이 되고, 출력은 hypothesis function의 결과가 된다. 모델에서 $x_0$ 입력 노드는 bias unit으로 불리기도 하는데, 이 노드는 항상 1의 값을 가진다. 신경망에서 분류처럼 똑같은 logistic function이고, sigmoid 활성화 함수라고도 불리는 $\frac {1}{1+e^{-\theta^{T}x}}$을 사용한다. 이 상황에서 세타 파라미터는 가중치라고도..

Lecture 🧑‍🏫/Coursera

[Machine Learning] Solving the Problem of Overfitting

2023.03.20

The Problem of Overfitting $x \in \mathbb{R}$로부터 $y$를 예측하는 문제를 생각해보도록 하자. 아래의 왼쪽 그림은 $y = \theta_{0} + \theta_{1}x$를 데이터셋에 적용시켰을 때의 결과를 보여주고 있다. 그림을 보면 직선이 정확히 점들의 위에 있지 않다는 것을 알 수 있다. 따라서 직선이 점들에 정확히 맞지 않는다는 것을 보여주고 있다. 여기에 추가적으로 feature을 추가하면, $y = \theta_{0} + \theta_{1}x + \theta_{2}x^{2}$을 얻게 되고, 그 전보다 좀 더 데이터에 맞는 함수를 얻게 된다. 이를 미루어 보아, feature가 더 많아지면 더 좋은 결과를 얻을 수 있다는 것을 짐작해볼 수 있다. 하지만, 그렇..

Lecture 🧑‍🏫/Coursera

[Machine Learning] Multiclass Classification

2023.03.15

Multiclass Classification: One-vs-all 이제부터 두 개 이상의 카테고리를 가지는 데이터에 대해서는 이 방식을 사용하여 분류할 것이다. $y={0,1}$ 대신에, 좀 더 확장된 $y={0,1,...,n}$을 사용할 것이다. $y={0,1,...,n}$이므로 문제를 $n+1$ 이진 분류 문제로 나눈다. 각각에서 $y$가 우리의 클래스 중 하나의 구성원일 확률을 예측한다. 기본적으로 하나의 클래스를 선택해서 다른 모든 클래스를 하나의 두 번째 클래스로 묶는다. 이를 반복적으로 하여, 이진 logistic regression을 각 케이스에 적용시킨 다음에, 가장 높은 값을 반환한 hypothesis를 예측으로 사용한다. 다음의 그림은 하나의 데이터셋이 3개의 클래스로 분류되는 과정을..

Lecture 🧑‍🏫/Coursera

[Machine Learning] Classification & Representation

2023.03.15

Classification 분류를 하기 위한 한 가지 방법으로는, 선형 회귀를 사용해서 0.5보다 큰 값은 1로, 0.5보다 작은 값은 0으로 매핑을 하는 방법이 있다. 하지만, 이 방법은 잘 작동하지 않는데, 보통 분류 문제가 선형 함수 문제가 아니기 때문이다. 분류 문제는 예측하려는 값이 소수의 이산값만 취한다는 점을 제외하면 회귀 문제와 같다. 지금부터는 이진 분류 문제에 집중할 것이다. 이 문제에서 $y$는 0과 1, 오직 두 값만 가질 수 있다. 예를 들어, 스팸 분류기를 만든다고 할 때, $x_{i}$는 이메일의 feature가 되고, $y$는 스팸 메일일 경우 1, 아닐 경우 0이 된다. 그래서 $y \in {1, 0}$이 된다. 0은 negative class로 불리고, 1은 positiv..

Lecture 🧑‍🏫/Coursera

[Machine Learning] Computing Parameters Analytically

2023.03.14

Normal Equation 경사 하강법은 cost function $J$의 값을 줄이는 방법 중 하나이다. cost function의 값을 줄이는 다른 방법을 알아보도록 하자! 이번에 알아볼 방법은 명쾌하게 최소화를 하고, 반복 알고리즘을 사용하지 않는다. "Normal Equation"은 $\theta_{j}$에 관하여 미분을 함으로써 0으로 설정하여 $J$를 최소화한다. 이는 반복 없이 최적의 $\theta$를 찾을 수 있게 해준다. normal equation 공식은 다음과 같다. $\theta = (X^{T}X)^{-1}X^{T}y$ normal equation에서는 feature scaling을 할 필요가 없다. 다음의 표는 경사 하강법과 normal equation 간의 비교를 보여준다. G..

티스토리툴바