데이터 > 데이터 프로세싱

데이터 프로세싱

1. 데이터의 의의
AI의 성장과 함께 시장의 변화는 더욱 빨라지는 중이고, 경쟁환경의 경계는 희미해지고 있습니다. 시장의 변동성은 증폭되고 있으며, 산업의 패러다임은 규모의 경제에서 속도의 경제로 이동 중입니다.
데이터는 시장과 경쟁환경의 변화를 빠르게 포착하여 이에 효과적으로 대응하기 위한 출발점입니다. 그리고, 이제는 시장과 경쟁환경 전체에 대한 포괄적이고 정확한 조망을 제공할 수 있어야 합니다.
2. 데이터의 수집
① 전수 데이터와 표본 데이터
숙박업 관련 통계 데이터는 집계 범위에 따라 전수 데이터와 표본 데이터로 구분됩니다. 집계 대상 집단의 전체를 조사하는 경우가 전수 데이터, 일부를 조사하는 경우가 표본 데이터입니다.
시장과 경쟁환경 전체에 대한 포괄적 조망이라는 측면에서 보면, 전수 데이터의 가치가 압도적이라고 할 수 있습니다. 그러나, 전수 데이터는 방대한 시간과 비용을 수반하기 때문에, 대부분의 가용 통계는 표본 데이터에 국한됩니다.
표본 데이터가 실무적 활용성을 갖기 위해서는 표본이 모집단의 특징을 정확하게 반영하고 있어야 합니다. 그러나, 우리나라 숙박업의 경우, 숙박업소 유형에 따라 관할 법령과 부처가 다르고, 데이터의 집계 범위에 차이가 있습니다.
② 설문 데이터와 기록 데이터
숙박업 관련 통계 데이터는 집계 방식에 따라 설문 데이터와 기록 데이터로 구분됩니다. 조사 대상 개별 원소들의 기록을 열람하는 경우가 기록 데이터, 응답을 수집하는 경우가 설문 데이터입니다.
시장과 경쟁환경 전체에 대한 정확한 조망이라는 측면에서 보면, 기록 데이터의 가치가 압도적이라고 할 수 있습니다. 그러나, 공급 관련 행정 데이터 일부가 기록으로 수집 가능하며, 대부분의 가용 통계는 설문 데이터에 국한됩니다.
설문 데이터가 실무적 활용성을 갖기 위해서는 응답의 정확성이 전제되어야 합니다. 그러나, 대부분의 설문 기반 통계에서 응답자의 착오나 고의에 의한 오류는 불가피한 측면이 있으며, 이러한 오류의 식별과 보정에 한계가 존재합니다.
로빈컴퍼니는 공급 데이터의 경우 전수 기록 데이터, 수요와 재무 데이터의 경우 표본 설문 데이터 수집을 원칙으로 합니다. 이는 통계 데이터의 가용 범위에 따른 것으로, 공급 데이터는 숙박업소 단위, 수요와 재무 데이터는 시도 단위 데이터를 수집합니다.
구분
원본
공급
시설
건축물대장정보, 건축인허가정보, 부동산 등기부등본
업체
사업자등록정보
업소
숙박업 등록현황, 관광숙박업 등록현황, 농어촌민박업 등록현황, 도시민박업 등록현황
수요
내수
국민여행조사 (2005-)*, 호텔업 운영현황 (2005-)*
외수
외래관광객조사 (2005-)*, 호텔업 운영현황 (2005-)*
재무
매출
경제총조사 (MDIS, 2010, 2015)*, 서비스업총조사 (MDIS, 2005)*, 호텔업 운영현황 (2005-)*
손익
경제총조사 (MDIS, 2010, 2015)*, 서비스업총조사 (MDIS, 2005)*, 기업경영분석 (2005-)
기타
서비스업총조사 (MDIS, 2005)*, 기업경영분석 (2005-), 관광경영실적통계 (2005-2009)
* 보고서의 조사결과 요약 데이터가 아닌, 조사원본 전수 데이터 사용.
3. 데이터의 가공
수집된 데이터는 집계 대상 집단 전체에 대한 특징 추출에 적절한 상태로의 가공 단계를 거치게 됩니다. 데이터 가공 방법은 크게 귀납적 가공연역적 가공으로 구분될 수 있으며, 각각의 특징은 다음과 같습니다.
① 귀납적 가공
귀납적 가공은 개별 원소 데이터 값들의 합산을 통해 집계 대상 집단 전체에 대한 특징을 추출할 수 있도록 가공하는 것입니다. 귀납적 가공은 누락된 항목을 제외하기 때문에, 가공 및 검증 절차가 간편하고 신속한 반면, 표본의 규모가 작을 경우 모집단의 특징이 정확하게 반영되지 않을 수 있습니다.
우리나라 숙박업 통계는 숙박업소 유형에 따라 집계 범위와 방식의 편차가 크기 때문에, 귀납적 가공의 경우 다수의 항목들이 제외되어 집계 대상 집단 전체에 대한 특징을 정확하게 포착하는 데 한계가 존재합니다.
예를 들어, 신용카드, 모바일, POS 데이터의 경우 외국인 데이터의 누락이, 예약 채널 데이터의 경우 채널에 따라 숙박업소 유형별 편중이 발생할 수 있어, 시장과 경쟁환경 전체에 대한 조망이 제한될 수 있습니다.
② 연역적 가공
연역적 가공은 개별 원소 데이터 값들을 기반으로 모집단의 합산 값을 추론하여 집계 대상 집단 전체의 특징을 추출할 수 있도록 가공하는 것입니다. 연역적 가공은 누락된 항목을 추론하기 때문에, 가공 및 검증의 난이도가 높은 반면, 추론 성능이 확보되는 경우 모집단의 특징이 정확하게 반영될 수 있습니다.
연역적 가공은 복잡한 추론 알고리즘과 방대한 연산으로 인해 널리 활용되지 않았으나, AI의 성장으로 기술적 한계는 해소된 상황입니다. 다만, 연역적 가공의 신뢰도는 추론 알고리즘의 성능에 따라 크게 달라질 수 있습니다.
추론 알고리즘의 성능은 수집 데이터의 표본 규모가 크고, 항목이 다양하며, 기간이 길수록 향상됩니다. 그러나, 수집 데이터가 제한적일 수밖에 없는 경우, 이를 보완할 수 있는 수단은 경험과 지식에 기반한 이론적 틀입니다.
로빈컴퍼니는 공급 데이터의 경우 귀납적 가공, 수요와 재무 데이터의 경우 연역적 가공을 원칙으로 합니다. 보정 및 추정 작업으로 구성된 추론은 글로벌 호텔산업 전문성에 기반하여 자체 개발한 이론적 틀을 외부 LLM에 적용하여 수행됩니다.
구분
세부사항
보정
대상
동일 항목 값이 불일치한 수요 및 재무 데이터
방법
1) 각 원본 독립변수 판별 및 관련 함수 추출
2) 독립변수 값 오류: 확정 실제 통계 값으로 치환
3) 함수 오류: 히스토리 및 벤치마킹 분석* 통한 보정
기준
업소별 판매단위 기준으로 보정 후 판매물량 반영하여 연산
검증
해당 항목 합산 통계 값과 비교 (동일 표본, 신뢰수준 95%)
추정
대상
값이 누락된 수요 및 재무 데이터 세부항목
방법
1) 해당 항목 관련 독립변수 판별 및 값 추출
2) 지역 및 유형별 주기성 및 계절성 분석 및 함수 추출
3) 히스토리 및 벤치마킹 분석* 통한 누락 항목 값 추정
기준
업소별 판매단위 기준으로 보정 후 판매물량 반영하여 연산
검증
해당 항목 합산 통계 값과 비교 (동일 표본, 신뢰수준 95%)
* 히스토리 분석은 해당 숙박업소의 과거 지표와의 비교분석, 벤치마킹 분석은 현재 경쟁시장 평균 지표와의 비교분석을 통칭.
위로 스크롤
Step 1 of 2

데이터 대시보드 2024 이용신청

데이터 대시보드 2024는 2005년부터 2024년까지 전국 및 17개 시도의 숙박업소 유형별 상세 데이터를 Power BI 대시보드로 시각화하여 제공합니다.

※ 이용기간 중 2025년 데이터가 업데이트되는 경우에도, 이용기한까지 추가 과금 없이 데이터 대시보드를 이용할 수 있습니다.

자료출처

  • GDP: GDP, Current $US (World Bank Open Data)
  • 업소수: Compendium of Tourism Statistics (UNWTO), 숙박업 현황 (행정안전부)
  • 객실수: Compendium of Tourism Statistics (UNWTO), 숙박업 현황 (행정안전부)
  • 숙박산업 GDP: Value Added by Industry (BEA), National Accounts (Cabinet Office), GDP of Indonesia (BPS), 경제활동별 GDP 및 GNI (한국은행), 경제총조사 (통계청)
  • 기간: 2017-2021

※ 우리나라의 경우 농어촌민박 및 도시민박을 제외한 일반 및 생활 숙박업소들이 포함되며, 비교 대상 국가는 미국 및 아시아 주요 국가들 중 객실수 통계에 전체 숙박업소 유형이 포함되고 숙박산업의 GDP 기여도 통계 확보가 가능한 국가들로 한정.

자료출처

  • 인구수: Population, Total (World Bank Open Data)
  • GDP: GDP, Current $US (World Bank Open Data)
  • 객실수: Compendium of Tourism Statistics (UNWTO), 숙박업 현황 (행정안전부)
  • 숙박산업 GDP: Value Added by Industry (BEA), National Accounts (Cabinet Office), GDP of Indonesia (BPS), 경제활동별 GDP 및 GNI (한국은행), 경제총조사 (통계청)
  • 기간: 2017-2021

※ 우리나라의 경우 농어촌민박 및 도시민박을 제외한 일반 및 생활 숙박업소들이 포함되며, 비교 대상 국가는 미국 및 아시아 주요 국가들 중 객실수 통계에 전체 숙박업소 유형이 포함되고 숙박산업의 GDP 기여도 통계 확보가 가능한 국가들로 한정.

서비스 준비중입니다.

1:1 문의

※ 로빈컴퍼니 및 제3자의 명예 손상 또는 업무 방해를 목적으로 하거나, 외설적, 폭력적 또는 로빈컴퍼니의 업무와 무관한 내용을 포함하는 메세지는 시스템에 의해 자동으로 차단되며, 관리자에게 전달되지 않습니다.

자료출처

  • 한국: 숙박업 현황 (행정안전부), 관광숙박업 등록현황 (문화체육관광부)
  • 미국: Census Database (STR)
  • 기간: 2021년 말 기준

※ 우리나라의 경우 농어촌민박 및 도시빈박을 제외한 일반 및 생활 숙박업소가 포함되며, 공통적으로 숙박업소들의 개업일부터 폐업일 또는 2020년 12월 31일까지 기준으로 생애주기를 산출하였고, 동일 항목에 대한 결과가 출처에 따라 다른 경우 알고리즘에 의한 보정치 사용.

자료출처

  • 한국: 숙박업 현황 (행정안전부), 관광숙박업 등록현황 (문화체육관광부), 경제총조사 (통계청), 호텔업 운영현황 (한국호텔업협회), 전자공시시스템 (금융감독원), Trends Report (STR)
  • 미국: Compendium of Tourism Statistics (UNWTO), Census Database (STR), Trends Report (STR)
  • 기간: 2005-2021

※ 우리나라의 경우 농어촌민박 및 도시민박을 제외한 일반 및 생활 숙박업소가 포함되며, 공통적으로 전체 숙박업소 수 대비 매출 데이터의 실명 또는 익명 확보가 가능한 개별 숙박업소 수의 비율로 가시성을 산출하였고, 동일 항목에 대한 결과가 출처에 따라 다른 경우 알고리즘에 의한 보정치 사용.

자료출처

  • 숙박객(한국): 국민여행조사 (문화체육관광부), 외래관광객조사 (문화체육관광부), 호텔업 운영현황 (한국호텔업협회)
  • 객실수(한국): 숙박업 현황 (행정안전부), 관광숙박업 등록현황 (문화체육관광부)
  • 숙박객(미국): Compendium of Tourism Statistics (UNWTO), Trends Report (STR)
  • 객실수(미국): Compendium of Tourism Statistics (UNWTO), Census Database (STR)
  • 기간: 2005-2020

※ 우리나라의 경우 농어촌민박 및 도시민박을 제외한 일반 및 생활 숙박업소를 포함하며, 공통적으로 동일 항목에 대한 결과가 출처에 따라 다른 경우 알고리즘에 의한 보정치 사용.