티스토리 뷰

IT이야기

데이터 기반의 부동산 투자

제이제이v 2023. 11. 23. 22:37

한국 사람들에게 집이란 단순히 나와 가족이 살아가는 보금자리 그 이상이다. 집을 한 채만 가지게 되더라도 보유한 주택의 가격에 매우 민감해지고 조금이라도 주택 가격이 내려갈 요소가 발생할 것 같다면 이기적이라는 말을 듣더라도 이를 방지하고자 한다. 그도 그럴 수밖에 없는 것이 집의 가격이 애초에 너무 비싸기 때문에 몇 퍼센트만 오르내려도 수천만 원에서 수억 원까지 오르내리기 때문이다. 이는 비단 집을 투자 수단으로 보는 사람들뿐만 아니라 실제로 거주하려는 실수요자 역시 마찬가지다. 비록 당장은 팔 생각이 없다고 하더라도 하루아침에 큰돈이 움직이는 것을 보면 집을 투자자의 관점으로 바라보게 된다.

똑똑한 투자를 하기위해 그저 감에 의존해서 투자하는 것이 아니라 데이터를 활용하여 좀더 객관적으로 판단해야한다. 그러기 위해서 어떤 데이터가 필요하고 어떤 프로그래밍 스킬이 필요한지에 대해 알아보겠다.

데이터를 이용해 부동산을 분석하고 투자에 활용하려면 프로그래밍 능력이 필요하다. 데이터를 손으로 직접 엑셀을 이용해서 분석할 때와 프로그래밍을 통해 데이터를 분석할 때를 비교해 보면 프로그래밍의 위력이 너무나도 현격하게 드러난다.

예를 들어, 각 지역의 매매가와 전세가 시계열 데이터를 분석해서 최근 두 가격 시계열의 갭이 점점 줄어드는 지역을 찾고 있다고 가정해 보자. 만약 손으로 데이터를 분석한다면 원하는 기간 동안의 특정 지역의 매매가와 전세가 시계열 데이터를 가지고 와서 그래프를 그리든지 기울기를 비교하든지 직접 만들고 계산해야 한다. 사실 이렇게 한 지역의 매매가와 전세가의 변화만 살펴본다면 구딩 프로그래밍이 필요하지는 않다. 하지만 투자를 위해 부동산 데이터를 살펴본다면 이렇게 하나의 지역뿐만 아니라 모든 지역에 같은 형식으로 데이터를 분석해서 비교해야 할 것이다. 간단히 시도 단위의 지역만 따져도 1개의 특별시, 6개의 광역시, 8개의 도, 1개의 특별자치시, 1개의 특별자치도까지 17개의 지역을 살펴봐야 한다. 단순한 작업이지만 17번이나 반복해야 하는 것이다. 누군가는 이 정도면 할만하다고 생각할지도 모르겠지만 지역을 더 상세히 구분해 보자. 서울 안에서만 마포구, 강남구, 서초구 등 25여 개의 구를 살펴봐야 하고 이를 전국으로 넓히면 100번 이상 같은 작업을 반복해야 할 것이다. 더욱더 나쁜 소식은 이런 데이터가 시간이 지나면서 계속 업데이트된다는 것이다. 현재 이렇게 힘들게 분석을 했지만 6개월이 지나면 6개월 동안의 매매가와 전세가 데이터가 또다시 쌓이기 때문에 이를 다시 분석해야 한다.

이러한 다양한 경우의 수를 해결하기 위해 프로그래밍 스킬이 필요하다. 프로그래밍 스킬이 없다면 수많은 작업을 반복해야 하므로 작업의 비효율성에 지쳐 버리거나 전체 데이터 중 아주 일부 영역만 분석하고 만족해야 할 것이다. 프로그래밍을 활용해 부동산 데이터를 분석하기로 마음먹었다면 어떤 프로그래밍 언어를 사용할지도 결정해야 한다.

초보자가 가장 쉽게 배우기 위한 언어는 파이썬이다. 파이썬 말고도 좋은 언어는 수없이 많다. 익숙하고 잘하는 특정 프로그래밍 언어가 있다면 그 언어를 이용해 데이터 분석을 해도 좋다. 하지만 새롭게 프로그래밍 언어를 배우는 비전공자라면 파이썬을 강력히 추천한다. 무엇보다 빠르게 배워서 쉽게 써먹기 좋기 때문이다.

파이썬은 단순히 배우기 쉽다는 이점 외에도 활용할 수 있는 라이브러리가 많다는 장점이 있다. 특히 데이터 분석에 있어 pandas라는 모듈을 활용하면 데이터 분석 과정을 10배는 더 빠르고 효율적으로 만들어 준다. 라이브러리 혹은 모듈은 누군가가 사용하기 편하게 만들어 놓은 코드 집합이라고 생각하면 된다. 파이썬을 사용하면 수많은 라이브러리를 활용해 처음부터 모든 것을 스스로 만드는 게 아니라 필요할 때 가져다가 적재적소에 활용하면 되는 것이다.

지금까지 부동산 데이터 분석에 있어서 프로그래밍의 필요성과 파이썬의 장점을 간단히 살펴봤다.