본문 바로가기

AI 훈련소 기록실

[플레이데이터 SK네트웍스 Family AI 캠프 19기] 5주차 회고

-  Machin Learning -

 

출처 : https://www.netzeronews.kr/news/articleView.html?idxno=2777

 

 

머신 러닝(Machine Learning, ML)이란 인공지능(AI)의 한 분야로,

컴퓨터가 데이터를 학습하여 스스로 패턴을 인식하고 에측하거나 결정을 내리는 능력을 키우는 기술이다.

그림에 나 닮은애가 있길래 퍼옴 ㅎ

더보기

앞서 적은 머신러닝 설명은 구글에 검색하면 나오는 내용이다

이번주에는 머신러닝에 대한 방대한 양의 학습이 이루어졌다.

 

수업 내용에 뒤처지지 않고 잘 따라갔냐면 전혀 아니었다.

머릿속에 계속 "이건 뭐지?", "이게 뭐지?" 이러고 있다 보니

내가 배우고 있는 게 머신러닝이라는 것 마저 망각하고 멍 때린 것 같다.

 

강사님 질문에도 그 어떤 대답을 할 수 없었고 참 민망하고 뭔가 이건 아니다 싶었다

표정관리를 원래 잘 못하는 편이라 내 표정 자체가 실수였을텐데

속으로 계속 아.. 스트레스.. 스트레스..라고 말하다가 실수로 입 밖으로 나왔다

 

정말 태도가 안 좋은 훈련생이 아닌가

점심시간 내내 이 실수 때문에 죄송한 마음 + 자책으로 굉장히 복잡했고

다행히도 문제 삼지 않으셔서 어찌 저지 넘어갔다

 

생각보다 많은 부분에서 배려받고 있다는 생각이 들었고

핑곗거리를 없애기 위해 당분간 진짜 수료 전까지는 부트캠프 학습을 최우선 순위로 두기로 했다.

정리한 것들을 적어보겠다.

 


 

1.  X와 y의 의미

 

  • X (특성, Feature data)
  • 모델이 학습에 사용하는 입력 데이터. 데이터셋의 각 열(column)들이 여기에 해당한다.
  • y (타깃, Target, Label)
  • 모델이 맞혀야 하는 정답 데이터.
  • 즉, X의 값에 따라 y가 결정된다.

 


 

2. train_test_split의 역할

 

  • train_test_split은 입력 데이터 X와 정답 데이터 y훈련용(train set)과 테스트용(test set)으로 으로 나누어주는 함수이다.
  • 이렇게 나누는 이유는, 모델이 학습한 데이터로만 평가하지 않고, 새로운 데이터(테스트 세트)에서 에서 성능을 검증하기 위함이다.

 


 

3. 머신러닝의 기본 단계와 함수

 

  • 훈련(Training): fit()
  • 모델에 데이터를 학습시킨다.
  • 예측(Prediction): predict()
  • 새로운 입력값에 대해 예측 결과를 만든다.
  • 평가(Evaluation): score()
  • 예측 결과를 실제 정답과 비교해 성능을 수치로 반환한다.

 


 

4. Task (모델이 푸는 문제 유형)

 

  • 분류(Classification)
    • 예: 스팸 메일 판별 (스팸 / 정상)
    • 예: 질병 진단 (양성 / 음성)
  • 데이터를 미리 정의된 범주(카테고리)로 분류하는 문제.
  • 회귀(Regression)
    • 예: 주식 가격 예측
    • 예: 주택 가격 예측
  • 연속적인 수치 값을 예측하는 문제.

 


 

5. 회귀를 사용하는 이유와 평가 지표

 

  • 이유: 숫자 값을 예측하기 위해 사용한다.
  • 평가지표 의미: 예측값과 실제값의 차이를 수치로 표현한다.
  • 이해 방법:
    • 오차 지표 (MSE, RMSE, MAE)는 값이 작을수록 좋은 모델이다.
    • 결정계수 R²는 값이 1에 가까울수록 좋은 모델이다. (데이터의 변동성을 얼마나 잘 설명했는지 보여줌)

 


 

6. 결정트리의 리프노드(Leaf Node)

 

  • 리프노드는 더 이상 분할되지 않고, 최종 예측을 내리는 노드이다.
  • 분류(Classification): 그 노드에 속한 샘플 중 가장 많은 클래스(다수결)를 최종 예측값으로 결정한다.
  • 회귀(Regression): 그 노드에 속한 값들의 평균을 최종 예측값으로 결정한다.

 


 

7. 결정트리에서 

. score()

의 의미

 

  • 분류 트리: 학습 과정에서는 지니 지수(Gini)나 엔트로피(Entropy) 불순도를 줄이는 방향으로 트리를 만든다.
  • 최종적으로. score()는 정확도(accuracy)를 반환한다.
  • 회귀 트리: 학습 과정에서는 MSE(평균제곱오차), MAE(평균절대오차) 같은 오차를 줄이는 방향으로 트리를 만든다.
  • 최종적으로. score()는 결정계수(R²)를 반환한다.

 


 

 

정리한 내용이 많지 않지만 어찌나 멀리에 안 들어오던지 네 시간 동안 타이핑도 쳐보고 눈감고도 써보고 하면서

겨우 익숙해지려고 조금은 이해력이 나아졌다.

 


 

8.  학습방법을 찾아서

 

뭔가 수업이 지나고 나서 나중에 다시 보면 단어자체가 생소하게 느껴진다는 느낌을 받았다.

그 이후로 그냥 메모장 열어놓고 수업시간 때 혹시 나중에 기억 잘 안 날 것 같은 단어가 귀에 걸리면

무조건 메모를 해놓는다.

 

일단 일면식은 있는 사이라고 기억을 해놓는 거다.

그러고 나서 나중에 찾아보면 그래도 정말 생소하지는 않으니 다행이다.

 

실습 때도 주석을 잔뜩 달아놓고 복습 때 꼼꼼히 살펴봐야겠다.

 

 


 

KPT

  • Keep : 잘하고 있다.
  • Problem : 복습을 많이 못했다.
  • Try : 잠을 더 줄이자.