본문 바로가기

일별 학습일지

1/22 :: 실강

KNN 

K Nearest Neighbor

바로 옆만 참조 vs 많은 값들을 참조

 

점선을 얼마나 실선에 맞추냐가 문제

 

K = 1

복잡한 모델

노이즈까지 학습한 상태

 

K = 100

모델이 단순, 전반적인 추세 볼 수 있음

 

 

자유도와 복잡도

 

 

모델 복잡도

모델 마다 다른 자유도로 인해 값이 많이 다를 수 있음

one hot encodding

 

 

0. % 쓰는 경우도 있음. 조율을 해주면 좋음

 

 

모델의 자유도 & 잔차의 자유ㅗ

 

 

 

Regression Detail

선형 회귀 모영

 

헀던 내용 복습

 

 

이분산성의 문제점

- 분산이 계속 변화, mse 쓰기 어려워

 

 

 

어디서 패턴이 잡히는지 알면 좋음 

 

 

Q. 정규성을 맞추는게 머신러닝 예측에 도움이 되는지

A. 그럴수도 아닐수도 있다. 만약 잘 안나온다면 다른 모델을 쓰는 것이 낫다.

 

다중 선형 회귀 

 

 

다중공선성

 

 

Q. 기준이 되는 다중  공선성 수치가 있는지? 얼마 이상이어야 column을 빼는지

A. 정답은 없으며 상황마다 다르다.

 

추후 자세한 내용은 ppt 볼 예정

 

 

csv  vs parquet

용량차이가 많이나서 parquet을 씀

 

https://www.databricks.com/kr/glossary/what-is-parquet

 

Parquet

Parquet란 무엇입니까? Apache Parquet는 효율적인 데이터 스토리지와 검색을 지원하도록 설계되었으며, 컬럼 중심의 오픈 소스 데이터 파일 형식입니다. 복잡한 데이터를 일괄적으로 처리하는 기능

www.databricks.com

 

lambda는 최대한 지양하기(속도가 느림)

 

국제적으로는 utc를 사용하기 때문에 시계열 데이터를 수집할 때 다뤄야함 

 

shift tab 으로 코드 살펴보기 

 

변수, feature engineering이 중요하고 이럴러면 데이터 분석이 필요함

이후 다양한 기법을 사용 및 앙상블 할 수 있도록

'일별 학습일지' 카테고리의 다른 글

2/6 :: 실강  (0) 2024.02.06
1/24~2/2 :: ML 이론  (0) 2024.02.02
1/19 :: 실강  (0) 2024.01.22
01/15 :: Git  (0) 2024.01.17
01/12 :: Git  (0) 2024.01.12