728x90 TIL - 외29 [머신러닝] 랜덤 포레스트 (Random Forest) 랜덤 포레스트 대표적인 결정 트리 기반의 앙상블 학습 방법 부트스트랩 샘플을 사용하고 랜덤하게 일부 특성을 선택하여 트리를 만드는 것이 특징 데이터 샘플링을 할 때 복원추출 결정나무(Decision Tree)를 여러개 만들어서 그 결과들을 종합적으로 고려하여 결론을 도출하는 방법 기본 100개의 트리 사용 n_job 매개변수 : -1로 지정하면 모든 CPU 코어를 사용 from sklearn.model_selection import cross_validate from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(n_jobs=-1, random_state=42) scores = cross_validate(rf, tra.. 2023. 5. 24. [머신러닝] 트리 알고리즘 (DecisionTreeClassifier) 결정 트리 (Decision Tree) 예/아니오에 대한 질문을 이어나가면서 정답을 찾아 학습하는 알고리즘 비교적 예측 과정을 이해하기 쉽고 성능도 뛰어남 사이킷런의 DecisionTreeClassifier 클래스 max_depth 매개변수 : 트리의 최대 깊이 지정 특성값의 스케일은 결정 트리 알고리즘에 영향 X 표준화 전처리 과정이 필요 X from sklearn.tree import DecisionTreeClassifier dt = DecisionTreeClassifier(random_state=42) dt.fit(train_scaled, train_target) print(dt.score(train_scaled, train_target)) # 0.997 print(dt.score(test_scal.. 2023. 5. 24. 엘로 평점 시스템 (Elo Rating System) Elo Rating 각종 게임이나 바둑, 체스 등 실력을 점수화시키는 곳이라면 널리 쓰이는 평점 승률 : E(A) = 1 / (1 + 10^((B - A) / 400)) 경쟁 게임이나 스포츠에서 개인이나 팀의 상대적인 강도를 표현하는 데 사용되는 숫자 주로 두 선수나 팀 간의 예상 승률을 계산하는 데 사용 이 Rating은 그들의 상대적인 강도 → 높을수록 상대적으로 강하다고 간주 경기 결과에 따라 업데이트 됨 이기면 Rating 상승 Rating이 낮은 선수가 높은 선수를 이기면 크게 상승 지면 Rating 하강 https://ko.wikipedia.org/wiki/%EC%97%98%EB%A1%9C_%ED%8F%89%EC%A0%90_%EC%8B%9C%EC%8A%A4%ED%85%9C 엘로 평점 시스템 -.. 2023. 5. 18. [머신러닝] 로지스틱 회귀 로지스틱 회귀 선형 방정식을 사용한 분류 알고리즘 범주형 변수를 예측 선형 회귀처럼 계산한 값을 그대로 출력하는 것이 아니라 0~1 사이로 압축 이진 분류 -> 시그모이드 함수 다중 분류 -> 소프트맥스 함수 기본적으로 릿지 회귀와 같이 계수의 제곱을 규제 L2 규제 C : 규제를 제어하는 매개변수 작을수록 규제가 크다 기본값 1 생선 데이터를 통해 어떤 생선인지 분류(7종류) 데이터 가져오기 import pandas as pd fish = pd.read_csv('https://bit.ly/fish_csv_data') # 생선 종류 print(pd.unique(fish['Species'])) # ['Bream' 'Roach' 'Whitefish' 'Parkki' 'Perch' 'Pike' 'Smelt'].. 2023. 5. 7. [머신러닝] 회귀 알고리즘 및 실습 회귀 : 임의의 수치를 예측하는 문제, 타깃값도 임의의 수치 K-최근접 이웃 회귀 k-최근접 이웃 알고리즘을 사용해 회귀 문제를 푼다. 가장 가까운 이웃 샘플을 찾고 이 샘플들의 타깃값을 평균하여 예측으로 삼는다. 새로운 샘플이 훈련 세트의 범위를 벗어나면 엉뚱한 값을 예측할 수 있다. kneighbors() 메서드를 사용하면 가장 가까운 이웃까지의 거리와 이웃 샘플의 인덱스를 얻을 수 있다. 결정 계수 대표적인 회귀 문제의 성능 측정 도구, 1에 가까울수록 좋고, 0에 가깝다면 성능이 나쁜 모델 타깃의 평균 정도를 예측하는 수준이라면 0에 가까워지고, 예측이 타깃에 아주 가까워지면 1에 가까운 값이 된다. 선형회귀 (Linear regression) 특성과 타깃 사이의 관계를 가장 잘 나타내는 선형 방.. 2023. 4. 13. [추천시스템] Model Based Collaborative Filtering - Unsupervised Model Based Collaborative Filtering 사용자-아이템의 숨겨진 특성 값을 계산하여 학습하는 방법으로 추천을 할 때는 학습한 모델만 있으면 된다. 따라서, 확장성과 예측 속도가 빠르다는 장점이 있으나, 모델만을 가지고 추천을 하기에 예측 정확도가 떨어질 수 있다. Model Based Collaborative Filtering 장점 데이터 패턴을 학습하여 추천 가능 (항목 간 유사성 단순 비교 X) 사용자-아이템 관계의 잠재적 특성 및 패턴을 찾을 수 O 사용자, 아이템 개수가 늘어나도 좋은 성능을 보임 학습 이후 서빙 속도가 빠름 model based collaborative filtering은 unsupervised와 supervised로 나뉘는데 이 글에선 unsupervis.. 2023. 4. 11. 이전 1 2 3 4 5 다음 반응형