본문 바로가기
728x90

전체 글348

[SQL] 소수점 올림, 반올림, 내림, 자르기 CEILING(값) 값을 그보다 큰 가장 가까운 정수로 올림 FLOOR(값) 값을 그보다 작은 가장 가까운 정수로 내림 SELECT CEILING(3.14159); # 4 SELECT FLOOR(3.14159); # 3 ROUND(값, n) 값이 소수점 n자릿수가 되도록 반올림 TRUNCATE(값, n) 값이 소수점 n자릿수가 되도록 버림 SELECT ROUND(3.14159, 2); # 3.14 SELECT TRUNCATE(3.14159, 2); # 3.14 2023. 7. 8.
[SQL] 정규표현식 - 해커랭크 Weather Observation Station 6~11 정규표현식 튜토리얼: https://regexone.com/lesson/introduction_abcs RegexOne - Learn Regular Expressions - Lesson 1: An Introduction, and the ABCs Regular expressions are extremely useful in extracting information from text such as code, log files, spreadsheets, or even documents. And while there is a lot of theory behind formal languages, the following lessons and examples will explore the more prac rege.. 2023. 7. 7.
[머신러닝] XGBoost (Extreme Gradient Boosting) Boosting 순차적으로 모델의 정확도를 높이는 방법 전체 학습 데이터에서 일부를 선택한 하위 데이터 세트와 이를 학습할 첫번째 모델을 만든다. 그리고 첫번째 모델이 잘 학습하지 못한 부분을 반영해서 두번째 데이터 세트와 두번째 모델을 만든다. 이를 반복해서 점진적으로 모델의 정확도를 높인다. Boosting 기법을 이용하여 구현한 대표 알고리즘은 Gradient Boost이다. Gradient Boost 알고리즘을 병렬 학습이 지원되도록 구현한 것이 XGBoost XGBoost Regression, Classification 모두 지원 성능과 효율이 좋아서 자주 사용되는 알고리즘이다. 특징 GBM보다 빠르다. 과적합 방지가 가능한 규제가 포함되어 있다. (조기 종료) CART(Classificatio.. 2023. 7. 7.
[빅데이터] 데이터 불균형 처리 - SMOTE 데이터 분석시 쉽게 마주하게 되는 문제 중 하나는 데이터의 불균형이다. 비대칭 데이터셋에서는 정확도(Accuracy)가 높아도 재현율(Recall)이 급격히 작아지는 현상이 발생하게 된다. 따라서 데이터 불균형을 처리해야 한다. 예) 100개의 데이터 중 5개 오류인 데이터 모두 정상이라고 예측한 경우 예측 오류 (Predicted Positive) 예측 정상 (Predicted Negative) 실제 오류 (True Positive) 0 95 95 실제 정상 (True Negative) 0 5 5 0 100 100 정확도 : (0 + 95) / 100 -> 95% 재현율 (실제 P중 예측 P) : 0 / (0 + 95) -> 0% 데이터 불균형 처리 https://chaemi720.tistory.com.. 2023. 7. 7.
[빅데이터] 분류 모형 결과 평가 2. ROC 곡선 분류 모형의 결과를 평가하기 위해서 혼동 행렬을 이용한 평가지표와 ROC 곡선의 AUC를 많이 사용한다. ROC 곡선 (Receiver Operating Characteristic Curve; ROC Curve) 가로축(x)을 혼동 행렬의 거짓 긍정률 (FP Rate)로 두고 세로축(y)을 참 긍정률(TP Rate)로 두어 시각화한 그래프 거짓 긍정률 (FP Rate) = 1 - 특이도 실제로 '부정'인 범주 중에서 '긍정'으로 잘못 예측한 비율 참 긍정률 (TP Rate) = 재현율(민감도) 실제로 '긍정'인 범주 중에서 '긍정'으로 올바르게 예측한 비율 ROC 곡선은 그래프가 왼쪽 꼭대기에 가깝게 그려질수록 분류 성능이 우수하다. ROC 곡선 특징 ROC 곡선에서 거짓 긍정률(Rate)과 참 긍정률(.. 2023. 7. 7.
[빅데이터] 분류 모형 결과 평가 1. 혼동 행렬 분류 모형의 결과를 평가하기 위해서 혼동 행렬을 이용한 평가지표와 ROC 곡선의 AUC를 많이 사용한다. 혼동 행렬 (Confusion Martix; 정오 행렬) 분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 분류 범주를 교차 표(Cross Table) 형태로 정리한 행렬 예측 범주 값 (Predicted Condition) Predicted Positive Predicted Negative 실제 범주 값 (Actual Condition) Actual Positive True Positive (TP) False Negative (FN) Actual Negative False Positive (FP) True Negative (TN) TP : 실제값이 P이고 예측값도 P (참 긍정) -> 암이라고 .. 2023. 7. 7.
반응형