본문 바로가기

국비지원

2/6 :: 실강 자료구조와 알고리즘 개론 자료출처 Upstage AI Lab 2기 코딩테스트 대비 자료구조와 알고리즘 실강 ppt / 개발남 노씨 강사님 https://www.youtube.com/@nossi-dev 교육목표 1. 코딩 테스트 합격 2. 코드를 작성했을 때 예측 및 효율적인 변수, 자료구조에 어떻게 담을까, 논리구조를 어떻게 할까 우선순위 따라 진행, 필요하면 추가 공부 코딩 테스트 Tip 네이버 카카오 코딩 테스트 빡셈 잘 준비하면 경쟁자를 줄일 수 있음 기업마다 해나가는 방향성을 다르게 해야 (IT 기업 vs 제조업 기반 대기업) 기본 유형의 알고리즘만 차근차근해도 중견 기업은 충분히 가능 같은 기업이라도 팀마다 원하는 인재상에 따라 코딩테스트 난이도 차이 "그래도 기본은 해놓아야한다" 코딩테스트 목.. 더보기
1/24~2/2 :: ML 이론 (양이 많다보니 통합으로 정리 및 작성) 자료출처 Upstage AI LAB 2기 ML 이론 (1/24~2/2) 실강 PPT / 김용담 강사님 강의 진행용 PDF에 Adobe Reader 프로그램으로 필기진행 + (코랩 실습) 필기 및 강의 PPT 교안 스크린샷이 많으며, 제대로 이해못한 내용이 있을 수 있음 서론 데이터 분석가들은 문제를 해결할 수 있는 구체적인 방안(코드) 구상 필요 어떤 데이터를 수치화하게 되면 벡터라는 개념을 가져올 수 있게 됨 데이터는 벡터로 표현 가능 https://www.youtube.com/watch?v=fNk_zzaMoSs&list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab Q. 코사인 거리보다 그냥 각도를 normalize 해서 쓰는게 직관에 더 맞지.. 더보기
1/22 :: 실강 KNN K Nearest Neighbor 점선을 얼마나 실선에 맞추냐가 문제 K = 1 복잡한 모델 노이즈까지 학습한 상태 K = 100 모델이 단순, 전반적인 추세 볼 수 있음 자유도와 복잡도 모델 복잡도 모델 마다 다른 자유도로 인해 값이 많이 다를 수 있음 one hot encodding 0. % 쓰는 경우도 있음. 조율을 해주면 좋음 모델의 자유도 & 잔차의 자유ㅗ Regression Detail 선형 회귀 모영 헀던 내용 복습 이분산성의 문제점 - 분산이 계속 변화, mse 쓰기 어려워 어디서 패턴이 잡히는지 알면 좋음 Q. 정규성을 맞추는게 머신러닝 예측에 도움이 되는지 A. 그럴수도 아닐수도 있다. 만약 잘 안나온다면 다른 모델을 쓰는 것이 낫다. 다중 선형 회귀 다중공선성 Q. 기준이 되는.. 더보기
1/19 :: 실강 회귀 포아송 프로세스 GLM Clustering 군집화 Q. 선형회귀말고도 푸아송분포 같은 분포개념이 필요한 경우가 있나요? A. 엄청 많다. F분포(통계 유효성 검증), 카이제곱 분포(독립성 검증) 등 선형회귀 말고도 많이 쓰임 비슷한 관측치끼리 묶는 비지도학습 비슷하다? 거리Distance, 특히 유클리드 거리 사용 Normalization 정규화 다른 방법도 있지만, 원래 수치가 아닌 다른 수치를 사용해야한다는 것은 동일하다. K-means 학습 b) 먼저 x좌표를 랜덤하게 잡는다 c) 랜덤 할당된 데이터와 가까운 순서대로 설정 d) 해당 군집의 평균을 계산해서 다시 x 좌표 할당 .. 수렴할때까지 반복한다. ex) Nearest Neighbor cf) k-means는 변화하는데 계속 바뀌면 안되니.. 더보기
01/17 :: Statics 전세계적으로 Analytic Engineer를 뽑는 추세 통계의 기본정도는 알고 있으면 좋다. 1. 2. 많은 내용을 다루지만 deep하지는 않다. 3. 시야를 넓히기 위함. 통계 관련 둘러보기 ANOVA 분산을 통해서 평균이 다른지를 분석? 대표적인 가정 Assumption : 정규성, 독립성, 등분산성 cf. 방법마다 다다름 정규성 modeling을 돌리고 나서 끝난 에러? '잔차'의 분포가 normal distribution을 따른다. 제일 중요하다. 독립성 관측칭의 순서에는 패터이 없다. 중요도 낮음 등분산성 각 집단의 분산 동일 → 비교적 덜 중요 "모델에 문제가 왜 발생했는지 분석할 수 있는 능력이 중요함 = 진단하고 고쳐라" Remedy : Normality QQplot으로 확인 하는 것이 .. 더보기
01/12 :: Git Git 은 코드 관리를 위해 사용한다. Shell, Vim commands Command line interface Shell 운영체제의 커널과 사용자를 이어주는 소프트 웨어 git flow는 잘 사용안함 첫날은 많이 쉬울거임 마우스 필요없는 환경 $ # \ 뒤에 쓰면 됨 $ pwd : print working directory 조회, 이동하는 작업을 많이함 $ ls -a $ ls -al cd 이동하는 명령어 cd .. 상위 directory mkdi (폴더이름) : 경로를 만들기 touch 파일 생성 .exe : touch라는 포맷을 활용해서 만들어도 실행 x = compile 거쳐서 해야됨 (기계어 번역이 필요함) docx : 워드파일도 동작 x preset인 meta data가 없어서 그럼 $ mv.. 더보기
01/12 :: EDA 프로젝트 더보기
12/29 :: Instacart Market Data https://www.kaggle.com/c/instacart-market-basket-analysis/data Instacart Market Basket Analysis | Kaggle www.kaggle.com 분석을 처음 진행하는 단계부터 같이하려함 재구매율 예측, 추천 EDA는 분석문제 데이터를 볼 때 어떤 것들이 도움이 될까 찾아보는 것들은 하면 좋을 듯 함 참고) 압축이 된 데이터는 실시간으로 해제하면서 불러와야해서 더 오래걸림 = 미리 해제해두는게 좋다 데이터가 너무 많으니 일부만 사용할 것이다. 프젝은 EDA를 수행해서 포폴만들자도 있지만, numpy, matplotlib 등 라이브러리 활용 연습 http://localhost:8888/notebooks/Desktop/AI_Lab/insta.. 더보기