1. Abstract
- Goal of the Competition
- 주어진 데이터를 이용하여 서울 아파트 실거래가를 효과적으로 예측하는 모델 개발
- Timeline
- March 20, 2024 - Start Date
- April 2, 2024 - Final submission deadline
- Description of the work
- 다양한 목적하에 다양한 부동산 관련 의사결정에 도움을 주기 위한 부동산 거래가격 예측모델 개발이 목적
- 총 4개의 데이터 세트가 제공
- 1 : 아파트 실거래가 데이터
- 국토교통부 제공
- 아파트의 위치, 크기, 건설 연도, 주변 시설 및 교통 편의성과 같은 다양한 기능을 포함
- 2,3 : 추가데이터
- 서울시 제공
- 지하철역과 버스정류장 관련 정보 포함
- 4 : 평가데이터
- 1 : 아파트 실거래가 데이터
2. Process : Competition Model
- XGBRegressor 모델 사용
- 전체 데이터셋 예측
- lux_apt, top_5_apt, 구 등 고가격 주택 관련 feature 생성후 포함
- optuna 사용하여 최적화
3. Process : Issues
- 시계열 Data 처리 관련 이슈
- 외부 데이터 반영시도
- LSTM 기법 활용시도
- 'unique_id' feature 생성하여 '계약연월' 따른 변화추적
- 데이터 특성이 제각각이며 차원 처리등 튜닝의 어려움 있었음
- 단순이동평균 기법 시도
- 건축년도 활용시도
- 지역 특성상 구축이여도 가격이 낮지 않은 경향성 확인
- 성능에 좋은 영향없어 배제하기로 결정
4. Role
- 데이터 EDA 진행 및 아이디어 공유
- 코드 구현 아이디어 등 팀원 보조
- 발표자료 제작 및 지원
5. Results
- 최종결과 기준 5위
- Final standings of the Leaderboard
- Public : 16621.89
- Private : 13331.07
6. Conclusion
- 개인적으로 많이 준비가 부족했었던 대회라고 생각
- 모델을 설계하는 것도 중요하지만 데이터에 대한 심층적인 EDA와 세밀한 전처리가 우선적이여야함
- 사고 발생시 대응할 수 있도록 데이터를 미리 백업해두는 습관을 가져야함
- 기존 스터디와 같이 개별로 준비하고 아이디어와 코드를 취합하는 과정을 거치다보니 비효율적으로 진행된듯함
- 그룹 단위의 역할 배분 및 관리 등 매니지먼트가 있어야함을 체감했으며 방법을 알아볼 예정
- 우수한 성과를 거둔 조의 운영방식을 벤치마킹할 필요성 있음
- 세밀한 전처리와 EDA, 매니지먼트, 실험 파이프라인 구축 등
'일별 학습일지' 카테고리의 다른 글
4/11 :: CV data (0) | 2024.04.11 |
---|---|
4/5 :: CV (0) | 2024.04.05 |
3/20~4/2 :: ML Competition (0) | 2024.04.03 |
3/12 :: DL & Pytorch 스터디 발표 (0) | 2024.03.15 |
2/26 :: ML PJT 발표 (0) | 2024.02.26 |