데이터 > 데이터 프로세싱
데이터 프로세싱
우리나라 숙박산업의 가장 큰 문제 중 하나는 현재 활용할 수 있는 과거 데이터가 많지 않다는 것입니다. 사실 갈수록 변화의 속도가 빨라지고 예상치 못했던 일들이 빈번해지는 환경이다 보니, 분야를 막론하고 과거 데이터에 대한 회의론이 확산되는 것이 사실입니다. 그러나, 숙박산업에서 과거 데이터의 중요성이 커지고 있는 것 또한 분명한 사실입니다.
목차
1. 시계열 데이터의 의의
과거의 데이터가 효용성을 갖게 되는 경우는 이를 통해 미래의 불확실성을 어느 정도 해소할 수 있을 때입니다. 기원전에 시작된 숙박산업의 경우, 오랜 시간이 흘렀음에도 그 속성은 달라지지 않았습니다. 집을 떠나 머무를 곳을 찾는 이들에게 일정 금액을 받고, 머무를 곳을 하루 단위로 빌려줍니다. 달라진 부분은 숙박산업의 규모가 거대해졌다는 것입니다.
오랜 기간 동일한 속성을 유지해온 숙박산업은 방대한 표본으로부터 방대한 데이터를 축적해왔는데, 그 데이터를 통해 여전히 유효한 두 가지 중요한 사실이 나타납니다.
  1. 현금흐름의 변동성이 일정한 패턴을 보이며 반복되어 왔습니다. 다만, 변동성의 주기와 진폭이 시장에 따라 차이를 보이는데, 그 변화의 원인들이 비교적 명확한 대신 시장에 따라 각각의 영향력에는 다소 차이가 있습니다. 즉, 과거 데이터를 통해 미래를 가늠해볼 수 있다는 특징이 있습니다.
  2. 끊임없는 변화와 속에서도 일관된 생존의 법칙이 존재했습니다. 그리고, 그 비결은 각 시대를 지배했던 패러다임을 빠르게 흡수하여 숙박산업에 적용했던 데 있습니다. 예를 들어, 제조업의 대량생산 패러다임을 흡수하여 분업화된 가치사슬을 구축해낸 것이 대표적인 사례라고 할 수 있습니다.
2. 우리나라 숙박업 통계
지금 우리나라의 숙박산업은 일본을 통해 도입된 서구식 ‘호텔’에 기반을 두고 있습니다. 그나마 1960년대 들어 우리가 직접 건립한 호텔이 등장했고, 1970년대 민영화 이후에야 ‘산업’으로서의 면모를 갖추기 시작했습니다. 즉, 근대적 통계 데이터가 축적되기 어려운 상황이었고, 실제로 우리나라 숙박산업의 데이터 기반은 산업 규모에 비해 빈약합니다.
우리나라에서 숙박시장 관련 통계가 체계를 갖추기 시작한 것은 1990년대 들어서입니다. 1992년부터 ‘국민여행실태조사’가, 1993년부터 ‘외래관광객여론조사’가 연단위로 집계되기 시작했습니다. 그리고 1997년부터 ‘호텔업 운영현황’ 통계가 연단위로 집계되기 시작했고, 2011년부터 5년 주기의 ‘경제총조사’가 시행되면서 통계의 구색을 갖추게 됩니다.
1997년부터 공급, 수요, 매출 데이터가 연단위로 쌓이기 시작한 호텔의 경우 유의미한 데이터 활용이 가능합니다. 그러나 우리나라 숙박시장 전체 공급에 있어 호텔이 차지하는 비중은 업소 기준으로 4%, 객실 기준으로 15%에 미치지 못합니다. 즉, 비교적 충실하게 작성된 호텔 데이터만으로는 전체 숙박시장의 동향을 가늠하기에 무리가 따르는 상황입니다.
3. 데이터 프로세싱 원칙
로빈은 숙박시장 전체에 대한 포괄적 가시성 확보를 목표로 합니다. 역동적으로 변화하는 경쟁환경을 더 정확히 판단하고, 효과적 전략을 도출할 수 있도록 하기 위해서입니다. 여기에는 크게 세 가지의 차원이 있습니다.
  1. 호텔 뿐만이 아닌 숙박산업 전체를 포괄하는 데이터베이스를 구축하는 것입니다. 숙박업소 유형간 경계가 사라지면서, 호텔, 모텔, 펜션 등 다양한 유형의 숙박업소들이 같은 수요를 두고 경쟁하는 상황이 갈수록 심화되고 있는 반면, 그 구체적인 상황과 동향에 대한 가시성은 극도로 제한적이기 때문입니다.
  2. 공급, 수요, 매출, 비용 등 가치사슬 전반을 포괄하는 데이터베이스를 구축하는 것입니다. 현재 공급과 수요 통계는 집계 기준이 달라 연계 활용이 어렵고, 매출과 비용 등의 데이터는 존재하지 않는 경우가 대부분입니다. 그러나, 경쟁환경의 변화 뿐만 아니라 변화의 영향을 함께 측정할 필요가 있습니다.
  3. 최근 동향 뿐만 아니라 장기간의 변화까지 포괄하는 데이터베이스를 구축하는 것입니다. 숙박산업에서는 오랜 기간 표준화된 상품을 취급해왔으며, 수요 변동성에 의한 영향 또한 일정한 패턴을 보여왔습니다. 즉, 현재와 미래의 불확실성을 해소하는 데 있어 과거의 이력이 가장 확실한 출발점인 셈입니다.
로빈의 포괄적 데이터베이스에는 실제 데이터와 알고리즘에 의한 추정 데이터가 함께 포함되어 있습니다. 이들은 다음과 같은 두 가지 핵심 원칙에 따라 선택 및 활용됩니다.
  1. 숙박업소 단위 데이터를 기준으로 합니다. 동일 지역에 위치한 동일 유형의 숙박업소라고 하더라도, 서로 다른 수요를 대상으로 하는 경우 전혀 다른 패턴의 변동성을 보일 수 있습니다. 따라서, 활용 가능한 개별 숙박업소 데이터가 있을 경우에는 이를 우선적으로 사용하고, 데이터가 없을 경우에 한하여 지역, 유형, 수요군 등에 따라 합산된 통계 데이터를 경쟁지수에 따라 개별 숙박업소 단위로 나누어 사용합니다.
  2. 가능한 한 실제 데이터를 우선으로 합니다. 다만, 개별 숙박업소 단위의 실제 데이터 표본이 제한적인데다, 설문조사 기반 통계일 경우 오류의 빈도 또한 높게 나타납니다. 통계 오류의 경우에는 숙박업소별 경쟁지수에 따른 유사 숙박업소 데이터와 비교하여 오류 여부를 판별하여 보정합니다. 실제 데이터가 존재하지 않는 경우에는 경쟁지수에 따른 유사 숙박업소들의 실제 데이터를 기반으로 추정하여 사합니다.
4. 데이터 프로세싱 절차
구체적으로, 원본 데이터를 수집한 후에는 이러한 원칙을 기반으로 가공하여 사용하게 되는데, 데이터 항목에 따른 데이터의 출처와 각각에 대한 가공 절차는 다음과 같습니다.
  1. 공급 데이터: 기존 숙박업소의 경우 행정안전부의 ‘숙박업 현황’, ‘농어촌민박업 현황’, ‘도시민박업 현황’, 문화체육관광부의 ‘관광숙박시설 등록현황’ 데이터를 수집하여, 주소 등의 오류를 보정한 후 숙박업소 단위로 가공합니다. 공급 예정 숙박업소의 경우 ‘건축 인허가 정보’를 수집한 후 숙박시설에 해당되는 건을 선별하며, 건축법상 숙박시설이 아닌 주택을 사용하는 민박업의 공급 예정 정보는 수집되지 않습니다. 이렇게 수집 및 가공된 숙박업소 목록을 기반으로 건축물대장, 등기부등본, 공시지가 정보 수집까지 완료하여 공급 데이터베이스를 구축합니다.
  2. 수요 데이터: 내국인 수요의 경우 문화체육관광부의 ‘국민여행조사’, 외국인 수요의 경우 문화체육관광부의 ‘외래관광객조사’ 및 법무부의 ‘외국인 출입국’ 통계, 호텔 수요의 경우 한국호텔업협회의 ‘호텔업 운영현황’을 기반으로, 자체 개발 알고리즘을 통해 연도별, 지역별, 숙박업소 유형별 숙박객수를 추정합니다. 다만, 수요와 공급 통계간의 숙박업소 분류 체계가 다르기 때문에, 자체 숙박업소 분류 체계에 따라 수요와 공급 통계를 보정하여 매칭합니다. 그리고, 숙박업소별 경쟁지수에 따라 개별 숙박시설 단위로 나누어 수요 데이터베이스를 구축합니다.
  3. 재무 데이터: 호텔의 경우 한국호텔업협회의 ‘호텔업 운영현황’ 데이터를, 그 밖의 숙박업소는 ‘서비스업총조사’ 및 ‘경제총조사’를 기준으로 하며, 공통적으로 설문조사 기반 통계이기 때문에 오류 보정이 선행됩니다. 또한, ‘서비스업총조사’ 및 ‘경제총조사’의 경우 데이터가 5년 주기로 존재하기 때문에, 그 사이의 기간에 대한 데이터는 자체 개발 알고리즘을 통해 추정합니다. 추정은 먼저 수요 데이터와 ‘호텔업 운영현황’ 데이터를 기반으로 각 지역 및 숙박업소 유형별 숙박시장 주기함수를 추출한 후, 개별 숙박업소들의 경쟁지수에 따라 나누어 사용합니다.
5. 자체 개발 알고리즘
데이터의 수집 및 가공 과정에서 다양한 자체 개발 알고리즘이 사용되는데, 크게 수집 알고리즘, 보정 알고리즘, 추정 알고리즘으로 구분되며, 각각 다음과 같은 특징이 있습니다.
  1. 수집 알고리즘: 기존의 오토메이션 알고리즘을 대용량 작업에 적합하도록 개량한 것입니다. 행정안전부의 ‘숙박업 현황’, ‘농어촌민박업 현황’, ‘도시민박업 현황’을 통해 수집된 숙박업소는 휴업 및 폐업 숙박업소까지 포함해 9만건 정도입니다. 이들 각각에 대하여 무료 데이터인 건축물대장, 건축 인허가 정보, 공시지가 데이터의 경우 3개월 단위로, 유료 데이터인 등기부등본 데이터의 경우 12개월 단위로 자동 업데이트 됩니다.
  2. 보정 알고리즘: 비교적 단순한 알고리즘이지만, 오류의 유형에 따라 각각 다른 연산이 적용됩니다. 주소 오류의 경우 범위를 확장하여 건축물대장 정보를 수집한 후, 수집된 숙박업소 정보에 부합하는 건축물대장 주소로 대체합니다. 이때 도로명주소가 아닌 지번주소를 사용하는데, 아직 도로명주소가 부여되지 않은 지역들이 존재하는데다, 도로명주소의 건물명이 영업에 사용되는 업소명과 다른 경우들이 많기 때문입니다. 재무 데이터 오류의 경우 가장 일반적인 오류는 금액 누락 및 단위 착오입니다. 금액 누락의 경우 판매량 등과 같은 관련 값을 통해 역산되며, 단위 착오의 경우 최소 판매단위로 환산 후 경쟁지수에 따른 유사 표본들과 비교하여 보정합니다.
  3. 추정 알고리즘: 기존 인공지능 알고리즘을 숙박업 특성에 맞도록 개량한 것입니다. 재무 예측 알고리즘으로 널리 활용되는 모델은 회귀분석, 특히 선형회귀를 기반으로 한 알고리즘이 대부분입니다. 그러나, 선형회귀 모델의 경우 주기성이 존재하는 숙박업의 현금흐름 예측에 있어 극복하기 어려운 한계가 존재합니다. 무엇보다 예측 결과의 후행성으로 인해 실무적 활용성을 확보하기 어렵다는 점에서 그렇습니다. 따라서, 주기성을 더욱 정확하게 포착해낼 수 있는 ‘푸리에급수’ 및 ‘다항회귀’ 기반의 알고리즘을 자체 개발하여 사용하고 있습니다.
Scroll to Top

자료출처

  • GDP: GDP, Current $US (World Bank Open Data)
  • 업소수: Compendium of Tourism Statistics (UNWTO), 숙박업 현황 (행정안전부)
  • 객실수: Compendium of Tourism Statistics (UNWTO), 숙박업 현황 (행정안전부)
  • 숙박산업 GDP: Value Added by Industry (BEA), National Accounts (Cabinet Office), GDP of Indonesia (BPS), 경제활동별 GDP 및 GNI (한국은행), 경제총조사 (통계청)
  • 기간: 2017-2021

※ 우리나라의 경우 농어촌민박 및 도시민박을 제외한 일반 및 생활 숙박업소들이 포함되며, 비교 대상 국가는 미국 및 아시아 주요 국가들 중 객실수 통계에 전체 숙박업소 유형이 포함되고 숙박산업의 GDP 기여도 통계 확보가 가능한 국가들로 한정.

자료출처

  • 인구수: Population, Total (World Bank Open Data)
  • GDP: GDP, Current $US (World Bank Open Data)
  • 객실수: Compendium of Tourism Statistics (UNWTO), 숙박업 현황 (행정안전부)
  • 숙박산업 GDP: Value Added by Industry (BEA), National Accounts (Cabinet Office), GDP of Indonesia (BPS), 경제활동별 GDP 및 GNI (한국은행), 경제총조사 (통계청)
  • 기간: 2017-2021

※ 우리나라의 경우 농어촌민박 및 도시민박을 제외한 일반 및 생활 숙박업소들이 포함되며, 비교 대상 국가는 미국 및 아시아 주요 국가들 중 객실수 통계에 전체 숙박업소 유형이 포함되고 숙박산업의 GDP 기여도 통계 확보가 가능한 국가들로 한정.

서비스 준비중입니다.

lobin-logo-black
1:1 문의
이 양식을 작성하려면 브라우저에서 JavaScript를 활성화하십시오.

※ 로빈컴퍼니 및 제3자의 명예 손상 또는 업무 방해를 목적으로 하거나, 외설적, 폭력적 또는 로빈컴퍼니의 업무와 무관한 내용을 포함하는 메세지는 시스템에 의해 자동으로 차단되며, 관리자에게 전달되지 않습니다.

자료출처

  • 한국: 숙박업 현황 (행정안전부), 관광숙박업 등록현황 (문화체육관광부)
  • 미국: Census Database (STR)
  • 기간: 2021년 말 기준

※ 우리나라의 경우 농어촌민박 및 도시빈박을 제외한 일반 및 생활 숙박업소가 포함되며, 공통적으로 숙박업소들의 개업일부터 폐업일 또는 2020년 12월 31일까지 기준으로 생애주기를 산출하였고, 동일 항목에 대한 결과가 출처에 따라 다른 경우 알고리즘에 의한 보정치 사용.

자료출처

  • 한국: 숙박업 현황 (행정안전부), 관광숙박업 등록현황 (문화체육관광부), 경제총조사 (통계청), 호텔업 운영현황 (한국호텔업협회), 전자공시시스템 (금융감독원), Trends Report (STR)
  • 미국: Compendium of Tourism Statistics (UNWTO), Census Database (STR), Trends Report (STR)
  • 기간: 2005-2021

※ 우리나라의 경우 농어촌민박 및 도시민박을 제외한 일반 및 생활 숙박업소가 포함되며, 공통적으로 전체 숙박업소 수 대비 매출 데이터의 실명 또는 익명 확보가 가능한 개별 숙박업소 수의 비율로 가시성을 산출하였고, 동일 항목에 대한 결과가 출처에 따라 다른 경우 알고리즘에 의한 보정치 사용.

자료출처

  • 숙박객(한국): 국민여행조사 (문화체육관광부), 외래관광객조사 (문화체육관광부), 호텔업 운영현황 (한국호텔업협회)
  • 객실수(한국): 숙박업 현황 (행정안전부), 관광숙박업 등록현황 (문화체육관광부)
  • 숙박객(미국): Compendium of Tourism Statistics (UNWTO), Trends Report (STR)
  • 객실수(미국): Compendium of Tourism Statistics (UNWTO), Census Database (STR)
  • 기간: 2005-2020

※ 우리나라의 경우 농어촌민박 및 도시민박을 제외한 일반 및 생활 숙박업소를 포함하며, 공통적으로 동일 항목에 대한 결과가 출처에 따라 다른 경우 알고리즘에 의한 보정치 사용.