write POST

Manage

[AI, ML] epoch, batch size, iteration

데이터 세분화를 통한 학습 효율 학습 과정 중 최적화 (optimization) 는 여러 번의 학습 과정을 거치며, 한 번의 학습 과정은 학습 데이터를 어떻게 나누냐에 따라 세분화 된다. epoch 전체 데이터 셋에 대하여 한 번 학습을 완료 인공신경망 기본 알고리즘: 역전파 알고리즘 (forward pass + backward pass) epoch 는 전체 데이터 셋에 대하여 forward pass 와 backward pass 가 완료된 상태 epoch = 30 으로 설정하여 학습 → 전체 데이터를 30 번 사용하여 학습 epoch 가 너무 큼 → overfitting epoch 가 너무 작음 → underfitting iteration / batch size iteration 한 번의 학습 과정 (e..

[AI, ML] K-fold Cross Validation

K-fold Cross Validation 데이터의 수가 적은 경우에는 데이터의 일부인 검증 데이터의 수도 적어짐 검증 데이터의 수가 적으면 검증 성능의 신뢰도가 하락함 검증 데이터의 수를 증가시키면 학습용 데이터의 수가 적어짐 → K-폴드 교차 검증을 통해 해결 Validation Set validation set 모델의 성능을 평가하기 위해서 사용 training set 에 대한 성능만 평가하며 모델을 학습시키면, 모델이 training set 에 overfitting 될 수 있음 시험을 준비하기 위해 한 문제집만 열심히 풀면 시험을 망침 다양한 문제를 많이 풀어보아야 함 K-fold Cross Validation Validation Set 이 있으면 완벽한가? 크기가 작은 데이터 셋에서 성능 평가의..

[AI, ML] Data Rescaling (표준화와 정규화)

표준화 (Standardization) 데이터가 평균으로부터 얼마나 떨어져 있는지 나타내는 값 $$z = \frac{x - \bar{x}}{\sigma}$$ 특정 범위를 벗어난 데이터는 outlier 로 간주하고 제거함 이상치(outlier)를 잘 처리하지만, 정확히 동일한 척도로 정규화 된 데이터를 생성하지는 않는다. 정규화 (Normalization) 데이터의 상태적 크기에 대한 영향을 줄이기 위해 데이터 범위를 0~1로 변환 $$X_{new} = \frac{x-x_{min}}{x_{max}-x_{min}}$$ min-max 스케일링 모든 feature들의 스케일이 동일하지만, 이상치(outlier)를 잘 처리하지 못한다 데이터 분석 적용 (요구사항: outlier 제거) 데이터 표준화를 통해 out..