본문 바로가기

일별 학습일지

ML Competition : Fast-UP Report

1. Abstract

  • Goal of the Competition
    • 주어진 데이터를 이용하여 서울 아파트 실거래가를 효과적으로 예측하는 모델 개발
  • Timeline
    • March 20, 2024 - Start Date
    • April 2, 2024 - Final submission deadline
  • Description of the work
    • 다양한 목적하에 다양한 부동산 관련 의사결정에 도움을 주기 위한 부동산 거래가격 예측모델 개발이 목적
    • 총 4개의 데이터 세트가 제공
      • 1 : 아파트 실거래가 데이터
        • 국토교통부 제공
        • 아파트의 위치, 크기, 건설 연도, 주변 시설 및 교통 편의성과 같은 다양한 기능을 포함
      • 2,3 : 추가데이터
        • 서울시 제공
        • 지하철역과 버스정류장 관련 정보 포함
      • 4  : 평가데이터

2. Process : Competition Model

  • XGBRegressor 모델 사용
    • 전체 데이터셋 예측
    • lux_apt, top_5_apt, 구 등 고가격 주택 관련 feature 생성후 포함
    • optuna 사용하여 최적화

3. Process : Issues

  • 시계열 Data 처리 관련 이슈
    • 외부 데이터 반영시도
    • LSTM 기법 활용시도
      • 'unique_id' feature 생성하여 '계약연월' 따른 변화추적
      • 데이터 특성이 제각각이며 차원 처리등 튜닝의 어려움 있었음 
    • 단순이동평균 기법 시도
  • 건축년도 활용시도
    • 지역 특성상 구축이여도 가격이 낮지 않은 경향성 확인
    • 성능에 좋은 영향없어 배제하기로 결정

4. Role

  • 데이터 EDA 진행 및 아이디어 공유
  • 코드 구현 아이디어 등 팀원 보조
  • 발표자료 제작 및 지원

5. Results

  • 최종결과 기준 5위
  • Final standings of the Leaderboard
    • Public : 16621.89
    • Private : 13331.07

6. Conclusion

  • 개인적으로 많이 준비가 부족했었던 대회라고 생각
  • 모델을 설계하는 것도 중요하지만 데이터에 대한 심층적인 EDA와 세밀한 전처리가 우선적이여야함
  • 사고 발생시 대응할 수 있도록 데이터를 미리 백업해두는 습관을 가져야함
  • 기존 스터디와 같이 개별로 준비하고 아이디어와 코드를 취합하는 과정을 거치다보니 비효율적으로 진행된듯함
    • 그룹 단위의 역할 배분 및 관리 등 매니지먼트가 있어야함을 체감했으며 방법을 알아볼 예정
  • 우수한 성과를 거둔 조의 운영방식을 벤치마킹할 필요성 있음
    • 세밀한 전처리와 EDA, 매니지먼트, 실험 파이프라인 구축 등 

'일별 학습일지' 카테고리의 다른 글

4/11 :: CV data  (0) 2024.04.11
4/5 :: CV  (0) 2024.04.05
3/20~4/2 :: ML Competition  (0) 2024.04.03
3/12 :: DL & Pytorch 스터디 발표  (0) 2024.03.15
2/26 :: ML PJT 발표  (0) 2024.02.26