1. 데이터 불러오기 | |
2. 상황에 따라 데이터프레임으로 변형 데이터 전처리. |
레이블 인코딩, 원-핫 인코딩, standardScaler(피처 스케일링과 정규화) |
3. x_train, x_text, y_train, y_test 분리 | |
4. 모델 선정 | |
5. 모델 학습 | cross_val_score(), |
6. 예측 | cross_val_score(), |
7. 예측 정확도 평가 | KFold 교차검증, stratified K 폴드 , cross_val_score(), GridSearchCV |
데이터 전처리 | 설명 |
standardScaler (피처 스케일링) |
-표준화는 데이터의 피처 각각이 평균이 '0' 이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것을 의미. -평균을 제거하고 데이터를 단위 분산으로 조정한다. |
원-핫 인코딩 |
고유 값에 해당하는 컬럼에만 1표시 |
레이블 인코딩 |
Label을 숫자로 분류한다. |
MInMaxScaler |
-데이터 값을 0과 1사이의 범위값으로 변환한다. (음수 값이 있으면 -1에서 1값으로 변환한다.) |
'나만의 파이썬' 카테고리의 다른 글
[파이썬] 유용하게 쓰이는 정규식 표현 (0) | 2021.08.02 |
---|---|
배열 데이터 Numpy 정리. (1) | 2021.06.06 |
[네이버] 금융 코스닥 파이썬 크롤링 연습. (1) | 2021.06.04 |
댓글