반응형 사이킷런3 머신러닝 2_5 데이터 전처리(Preprocessing) 결손값 처리 (Null/ NaN 처리) 데이터 인코딩(레이블, 원-핫 인코딩) 머신러닝알고리즘은 문자열 데이터 속성을 입력값으로 받지않기 때문에 문자형이 아닌 숫자형으로 표현 되어야한다. 레이블인코딩 - 남, 여 → 1, 0 , 숫자값이기 때문에 의도하지 않아도 1이 더크다는 의미로 영향을 받는 알고리즘이 있을수있다. 따라서 회귀에는 적용하지말고 tree 계열 ML 알고리즘은 적용가능 , 이러한 문제점을 해결하기위해 나온것이 원핫 인코딩이다. 사이킷런의 LabelEncoder 클래스 , fit() 과 transform() 을 이용하여 변환 원핫(One-hot) 인코딩 -feature 값의 유형에 따라 새로운 피처를 추가 해서 고유값에 해당하는 컬럼에만 1을 표시 하고 나머지 컬럼에는 0 을 표시 하는 방.. 2022. 4. 28. 머신러닝 2_3 ModelSelection 학습/테스트 데이터 셋 분리 – train_test_split() X_train, X_test, y_train,y_test = train_test_split(’피쳐데이터세트’, ‘레이블데이터세트’, test_size=’전체데이터세트중테스트데이터비율’, random_state=’호출할때마다 같은 학습//테스트용 데이트 세트를 생성하기위해 주어지는 난수 발생값 ’) train_test_split 는 무작위로 데이터 분리 하므로 random_state를 지정하지 않으면 수행할때마다 다른 학습 / 테스트용 데이터를 만들수 있다. 따라서 동일 데이터세트로 분리하기위해 random_state 를 일정 숫자값으로 부여, 숫자값은 어떤값으로 시정해도 상관없음 ) X_train: 학습용 피처 데이터 세트 X_test: .. 2022. 4. 22. 머신러닝 2_1 1-1.용어정리 피쳐(Feature) , 속성 피처는 데이터세트의 일반속성, 타겟값을 제외한 나머지 속성을 모두 피처로 칭함 타겟(값),결정(값)(=레이블, 클래스) 지도학습시 데이터의 학습을 위해 주어지는 정답 데이터, 레이블, 클래스 ⇒ 지도 학습 중 분류의 경우 에는 이 결정 값을 레이블 또는 클래스로 칭함. 지도학습 - 정답이 주어진 데이터(Prediction) 를 학습 한 뒤 미지의 정답을 예측하는 방식 (학습데이터세트-학습을 위한 데이터 세트(속성과 결정값(레이블)이 모두 있어야한다.), 테스트데이터세트- 예측 성능을 평가하기 위한 데이터 세트)-- 회기, 분류 사이킷런을 이용하여 붓꽃(Iris) 데이터 품종 예측하기 1-2. 붓꽃 데이터분류 예측 프로세스 데이터 세트 분리 - 데이터를 학습 .. 2022. 4. 21. 이전 1 다음 반응형