https://www.kaggle.com/c/instacart-market-basket-analysis/data
Instacart Market Basket Analysis | Kaggle
www.kaggle.com
분석을 처음 진행하는 단계부터 같이하려함
재구매율 예측, 추천
EDA는 분석문제
데이터를 볼 때 어떤 것들이 도움이 될까 찾아보는 것들은 하면 좋을 듯 함
참고)
압축이 된 데이터는 실시간으로 해제하면서 불러와야해서 더 오래걸림
= 미리 해제해두는게 좋다
데이터가 너무 많으니 일부만 사용할 것이다.
프젝은 EDA를 수행해서 포폴만들자도 있지만,
numpy, matplotlib 등 라이브러리 활용 연습
http://localhost:8888/notebooks/Desktop/AI_Lab/instacart-market-basket-analysis/20231229%20Instacart%20Market%20.ipynb
metadata를 만드냐 안만드냐 차이,
과연 많이 조회가 되느냐 = 주관적 영역이라 생각함. 해도 무방.
EDA 순서
1. 크기, 메모리 확인하기
- .info(memory_usage='deep') : 정확한 메모리 사용량 계산
2. row, column의 의미
3. 데이터 합치기 & EDA
하나의 dataframe에서 연산이 안되고 합쳐서 봐야하는 것들이 많음
실제로도 이런 경우가 많긴함
요일별 편차가 큰 경우 > 요일 영향 많음
최초구매한 사람은 단순 reordered 수치로 추후 재주문할지 예측하기 힘듬
다양한 데이터 통합해서 판단예정
cf. 나중에 추천에가면, 키워드로는
session-based
recommendation
웹페이지상에서 접속~아웃 까지 session 이라고 함
Action이라는 것과 함께 예측함
예) action : click, add-to-cart, buy 등 다음 action을 예측하는 것.
학습이 잘되었다는 가정하에 예측하기 쉬울것
CTR(click thorugh rate) 높이거나,
생각해보면 추천도 결국은 광고임
데이터 덮는 것도 편하긴한데,
reset.index가 더 편할거임
ML 맛보기 : Clustering (군집화)
https://docs.kanaries.net/ko/topics/Pandas/pandas-crosstab
EDA 프로젝트 OT
[UPSTAGE AI LAB 02] EDA PJT OT | Built with Notion
EDA는 해당 데이터를 가감없이 분석하여, 비즈니스 인사이트를 찾아내는 과정을 말합니다.
codingiscoffee.notion.site
해당 데이터를 가감없이 분석하여, 비지니스 인사이트를 찾아내는 과정
기업에 어떤 것을 제시할 수 있을까?
팀 선정이 완료되었는데, 팀마다 주제가 할당됨
Notion을 활용하려고함
여러분들끼리 팀 단위로 일을 해야하는데,
대략적인 과정
1. 분석해보고 싶은 분야를 정함
2. 해당 데이터셋을 선정, 문제 정의
- 문제를 풀기 위해 해야하는 것들이 생김
- 실험을 서로 다르게 하면서 함
- 코딩을 잘하는 사람은 많이 하고, 적게 하고 처럼 보이는데 기여도와 상관 없음 = 코딩이 다가 아니다, 연습은 해라
- 아이디어 리서치, 분석, 열심히 할 것을 찾으면 될거임. 인사이트를 찾으면 결과가 될 수 있음
- 스토리 라인을 만들어서 발표를 하면 될 것 같음
3. 실제 파이썬 코드로 EDA를 직접 수행
Daily Meeting 추천
도구는 사용하는 것은 상관없음
chat gpt 의존도를 낮추는 것을 개인적으로 연습하면 좋을듯함
데이터를 딱 보고 공부 좀 할께요 > 공부는 알아서 해라.
팀플은 공부와 병행하는 것. 문제를 푸는 것에 집중
2일뒤에 봅시다? 진도 안나간다 = 망한다
이 프로젝트 부터 포폴로 쓰일거 같임
제대로 쓰고 싶으면
프로젝트의 완성도 : 발표자료
코드는 아무도 line by line 안읽어줌
내용은 토론을 할 정도의 수준이 되어야함
프로젝트가 디벨롭 되는게 좋다.
중요한 것 : 제출파일
1. 팀별 PPT
2. 개인별 코드
: 얼마나 이해를 하고 있는지. = 실험했던 코드들 정리해서 내면 된다. 되는 코드 상태로
PPT라는 것은,
2주동안 갈아넣은 것을 남이 봤을 때 이해할 수 있게 만드는 자료.
어떻게 이해할 수 있는가?
포폴로 못쓴다.
아무도 코드를 읽어주지 않는다.
스토리 라인도 중요함
데이터를 가지고 스토리 분석 하는 것
크롤링을 해도 상관없음 (영리 목적이 아니니까)
제일 중요한 것 : 팀 프로젝트 승패
팀원들 끼리의 커뮤니케이션이 충분히 잘 되느냐
팀플을 할 때는 아이디어를 구현해내는 것이 중요함
ㅡㅡ
'일별 학습일지' 카테고리의 다른 글
01/12 :: Git (0) | 2024.01.12 |
---|---|
01/12 :: EDA 프로젝트 (0) | 2024.01.12 |
12/27 :: 실강 (0) | 2023.12.27 |
12/26 :: 개인 프로젝트 발표 (0) | 2023.12.26 |
12/26 :: 실강 (0) | 2023.12.26 |