본문 바로가기

일별 학습일지

12/29 :: Instacart Market Data

https://www.kaggle.com/c/instacart-market-basket-analysis/data

 

Instacart Market Basket Analysis | Kaggle

 

www.kaggle.com

 

분석을 처음 진행하는 단계부터 같이하려함

 

재구매율 예측, 추천

EDA는 분석문제 

 

데이터를 볼 때 어떤 것들이 도움이 될까 찾아보는 것들은 하면 좋을 듯 함

 

참고)

압축이 된 데이터는 실시간으로 해제하면서 불러와야해서 더 오래걸림

= 미리 해제해두는게 좋다

 

데이터가 너무 많으니 일부만 사용할 것이다. 

 

프젝은 EDA를 수행해서 포폴만들자도 있지만,

numpy, matplotlib 등 라이브러리 활용 연습

 

http://localhost:8888/notebooks/Desktop/AI_Lab/instacart-market-basket-analysis/20231229%20Instacart%20Market%20.ipynb

 

metadata를 만드냐 안만드냐 차이,

과연 많이 조회가 되느냐 = 주관적 영역이라 생각함. 해도 무방. 

 

EDA 순서

1. 크기, 메모리 확인하기

  • .info(memory_usage='deep') : 정확한 메모리 사용량 계산

2. row, column의 의미

 

3. 데이터 합치기 & EDA

 

하나의 dataframe에서 연산이 안되고 합쳐서 봐야하는 것들이 많음

실제로도 이런 경우가 많긴함 

 

요일별 편차가 큰 경우 > 요일 영향 많음

 

 

최초구매한 사람은 단순 reordered 수치로 추후 재주문할지 예측하기 힘듬

다양한 데이터 통합해서 판단예정

 

cf. 나중에 추천에가면, 키워드로는 

session-based 

recommendation

 

웹페이지상에서 접속~아웃 까지 session 이라고 함

Action이라는 것과 함께 예측함 

예) action : click, add-to-cart, buy 등  다음 action을 예측하는 것.

학습이 잘되었다는 가정하에 예측하기 쉬울것

 

CTR(click thorugh rate) 높이거나, 

생각해보면 추천도 결국은 광고임

 

데이터 덮는 것도 편하긴한데,

reset.index가 더 편할거임

 

ML 맛보기 : Clustering (군집화)

https://docs.kanaries.net/ko/topics/Pandas/pandas-crosstab

 


 

EDA 프로젝트 OT

 

 https://codingiscoffee.notion.site/UPSTAGE-AI-LAB-02-EDA-PJT-OT-981212e0099b43939e1815df0283183c?pvs=4

 

[UPSTAGE AI LAB 02] EDA PJT OT | Built with Notion

EDA는 해당 데이터를 가감없이 분석하여, 비즈니스 인사이트를 찾아내는 과정을 말합니다.

codingiscoffee.notion.site

 

해당 데이터를 가감없이 분석하여, 비지니스 인사이트를 찾아내는 과정

 

기업에 어떤 것을 제시할 수 있을까?

 

팀 선정이 완료되었는데, 팀마다 주제가 할당됨

Notion을 활용하려고함

여러분들끼리 팀 단위로 일을 해야하는데,

 

대략적인 과정 

1. 분석해보고 싶은 분야를 정함

2. 해당 데이터셋을 선정, 문제 정의

    - 문제를 풀기 위해 해야하는 것들이 생김

    - 실험을 서로 다르게 하면서 함

    - 코딩을 잘하는 사람은 많이 하고, 적게 하고 처럼 보이는데 기여도와 상관 없음 = 코딩이 다가 아니다, 연습은 해라

    - 아이디어 리서치, 분석, 열심히 할 것을 찾으면 될거임. 인사이트를 찾으면 결과가 될 수 있음

    - 스토리 라인을 만들어서 발표를 하면 될 것 같음 

 

3. 실제 파이썬 코드로 EDA를 직접 수행

 

Daily Meeting 추천

 

도구는 사용하는 것은 상관없음

chat gpt 의존도를 낮추는 것을 개인적으로 연습하면 좋을듯함

 

데이터를 딱 보고 공부 좀 할께요 > 공부는 알아서 해라. 

팀플은 공부와 병행하는 것.  문제를 푸는 것에 집중

 

2일뒤에 봅시다? 진도 안나간다 = 망한다

 

이 프로젝트 부터 포폴로 쓰일거 같임

제대로 쓰고 싶으면

 

프로젝트의 완성도 : 발표자료

코드는 아무도 line by line 안읽어줌 

 

내용은 토론을 할 정도의 수준이 되어야함

프로젝트가 디벨롭 되는게 좋다.

 

중요한 것 : 제출파일 

1. 팀별 PPT

2. 개인별 코드

: 얼마나 이해를 하고 있는지. = 실험했던 코드들 정리해서 내면 된다. 되는 코드 상태로

 

PPT라는 것은,

2주동안 갈아넣은 것을 남이 봤을 때 이해할 수 있게 만드는 자료.

 

어떻게 이해할 수 있는가?

포폴로 못쓴다.

 

아무도 코드를 읽어주지 않는다.

스토리 라인도 중요함

 

데이터를 가지고 스토리 분석 하는 것

 

크롤링을 해도 상관없음 (영리 목적이 아니니까)

 

제일 중요한 것  : 팀 프로젝트 승패 

팀원들 끼리의 커뮤니케이션이 충분히 잘 되느냐

 

팀플을 할 때는 아이디어를 구현해내는 것이 중요함

ㅡㅡ

 

'일별 학습일지' 카테고리의 다른 글

01/12 :: Git  (0) 2024.01.12
01/12 :: EDA 프로젝트  (0) 2024.01.12
12/27 :: 실강  (0) 2023.12.27
12/26 :: 개인 프로젝트 발표  (0) 2023.12.26
12/26 :: 실강  (0) 2023.12.26