데이터 > 데이터 프로세싱
데이터 프로세싱
1. 데이터의 의의
AI의 성장과 함께 시장의 변화는 더욱 빨라지는 중이고, 경쟁환경의 경계는 희미해지고 있습니다. 시장의 변동성은 증폭되고 있으며, 산업의 패러다임은 규모의 경제에서 속도의 경제로 이동 중입니다.
데이터는 시장과 경쟁환경의 변화를 빠르게 포착하여 이에 효과적으로 대응하기 위한 출발점입니다. 그리고, 이제는 시장과 경쟁환경 전체에 대한 포괄적이고 정확한 조망을 제공할 수 있어야 합니다.
2. 데이터의 수집
① 전수 데이터와 표본 데이터
숙박업 관련 통계 데이터는 집계 범위에 따라 전수 데이터와 표본 데이터로 구분됩니다. 집계 대상 집단의 전체를 조사하는 경우가 전수 데이터, 일부를 조사하는 경우가 표본 데이터입니다.
시장과 경쟁환경 전체에 대한 포괄적 조망이라는 측면에서 보면, 전수 데이터의 가치가 압도적이라고 할 수 있습니다. 그러나, 전수 데이터는 방대한 시간과 비용을 수반하기 때문에, 대부분의 가용 통계는 표본 데이터에 국한됩니다.
표본 데이터가 실무적 활용성을 갖기 위해서는 표본이 모집단의 특징을 정확하게 반영하고 있어야 합니다. 그러나, 우리나라 숙박업의 경우, 숙박업소 유형에 따라 관할 법령과 부처가 다르고, 데이터의 집계 범위에 차이가 있습니다.
② 설문 데이터와 기록 데이터
숙박업 관련 통계 데이터는 집계 방식에 따라 설문 데이터와 기록 데이터로 구분됩니다. 조사 대상 개별 원소들의 기록을 열람하는 경우가 기록 데이터, 응답을 수집하는 경우가 설문 데이터입니다.
시장과 경쟁환경 전체에 대한 정확한 조망이라는 측면에서 보면, 기록 데이터의 가치가 압도적이라고 할 수 있습니다. 그러나, 공급 관련 행정 데이터 일부가 기록으로 수집 가능하며, 대부분의 가용 통계는 설문 데이터에 국한됩니다.
설문 데이터가 실무적 활용성을 갖기 위해서는 응답의 정확성이 전제되어야 합니다. 그러나, 대부분의 설문 기반 통계에서 응답자의 착오나 고의에 의한 오류는 불가피한 측면이 있으며, 이러한 오류의 식별과 보정에 한계가 존재합니다.
로빈컴퍼니는 공급 데이터의 경우 전수 기록 데이터, 수요와 재무 데이터의 경우 표본 설문 데이터 수집을 원칙으로 합니다. 이는 통계 데이터의 가용 범위에 따른 것으로, 공급 데이터는 숙박업소 단위, 수요와 재무 데이터는 시도 단위 데이터를 수집합니다.
구분
원본
공급
시설
건축물대장정보, 건축인허가정보, 부동산 등기부등본
업체
사업자등록정보
업소
숙박업 등록현황, 관광숙박업 등록현황, 농어촌민박업 등록현황, 도시민박업 등록현황
수요
내수
국민여행조사 (2005-)*, 호텔업 운영현황 (2005-)*
외수
외래관광객조사 (2005-)*, 호텔업 운영현황 (2005-)*
재무
매출
경제총조사 (MDIS, 2010, 2015)*, 서비스업총조사 (MDIS, 2005)*, 호텔업 운영현황 (2005-)*
손익
경제총조사 (MDIS, 2010, 2015)*, 서비스업총조사 (MDIS, 2005)*, 기업경영분석 (2005-)
기타
서비스업총조사 (MDIS, 2005)*, 기업경영분석 (2005-), 관광경영실적통계 (2005-2009)
* 보고서의 조사결과 요약 데이터가 아닌, 조사원본 전수 데이터 사용.
3. 데이터의 가공
수집된 데이터는 집계 대상 집단 전체에 대한 특징 추출에 적절한 상태로의 가공 단계를 거치게 됩니다. 데이터 가공 방법은 크게 귀납적 가공과 연역적 가공으로 구분될 수 있으며, 각각의 특징은 다음과 같습니다.
① 귀납적 가공
귀납적 가공은 개별 원소 데이터 값들의 합산을 통해 집계 대상 집단 전체에 대한 특징을 추출할 수 있도록 가공하는 것입니다. 귀납적 가공은 누락된 항목을 제외하기 때문에, 가공 및 검증 절차가 간편하고 신속한 반면, 표본의 규모가 작을 경우 모집단의 특징이 정확하게 반영되지 않을 수 있습니다.
우리나라 숙박업 통계는 숙박업소 유형에 따라 집계 범위와 방식의 편차가 크기 때문에, 귀납적 가공의 경우 다수의 항목들이 제외되어 집계 대상 집단 전체에 대한 특징을 정확하게 포착하는 데 한계가 존재합니다.
예를 들어, 신용카드, 모바일, POS 데이터의 경우 외국인 데이터의 누락이, 예약 채널 데이터의 경우 채널에 따라 숙박업소 유형별 편중이 발생할 수 있어, 시장과 경쟁환경 전체에 대한 조망이 제한될 수 있습니다.
② 연역적 가공
연역적 가공은 개별 원소 데이터 값들을 기반으로 모집단의 합산 값을 추론하여 집계 대상 집단 전체의 특징을 추출할 수 있도록 가공하는 것입니다. 연역적 가공은 누락된 항목을 추론하기 때문에, 가공 및 검증의 난이도가 높은 반면, 추론 성능이 확보되는 경우 모집단의 특징이 정확하게 반영될 수 있습니다.
연역적 가공은 복잡한 추론 알고리즘과 방대한 연산으로 인해 널리 활용되지 않았으나, AI의 성장으로 기술적 한계는 해소된 상황입니다. 다만, 연역적 가공의 신뢰도는 추론 알고리즘의 성능에 따라 크게 달라질 수 있습니다.
추론 알고리즘의 성능은 수집 데이터의 표본 규모가 크고, 항목이 다양하며, 기간이 길수록 향상됩니다. 그러나, 수집 데이터가 제한적일 수밖에 없는 경우, 이를 보완할 수 있는 수단은 경험과 지식에 기반한 이론적 틀입니다.
로빈컴퍼니는 공급 데이터의 경우 귀납적 가공, 수요와 재무 데이터의 경우 연역적 가공을 원칙으로 합니다. 보정 및 추정 작업으로 구성된 추론은 글로벌 호텔산업 전문성에 기반하여 자체 개발한 이론적 틀을 외부 LLM에 적용하여 수행됩니다.
구분
세부사항
보정
대상
동일 항목 값이 불일치한 수요 및 재무 데이터
방법
1) 각 원본 독립변수 판별 및 관련 함수 추출
2) 독립변수 값 오류: 확정 실제 통계 값으로 치환
3) 함수 오류: 히스토리 및 벤치마킹 분석* 통한 보정
2) 독립변수 값 오류: 확정 실제 통계 값으로 치환
3) 함수 오류: 히스토리 및 벤치마킹 분석* 통한 보정
기준
업소별 판매단위 기준으로 보정 후 판매물량 반영하여 연산
검증
해당 항목 합산 통계 값과 비교 (동일 표본, 신뢰수준 95%)
추정
대상
값이 누락된 수요 및 재무 데이터 세부항목
방법
1) 해당 항목 관련 독립변수 판별 및 값 추출
2) 지역 및 유형별 주기성 및 계절성 분석 및 함수 추출
3) 히스토리 및 벤치마킹 분석* 통한 누락 항목 값 추정
2) 지역 및 유형별 주기성 및 계절성 분석 및 함수 추출
3) 히스토리 및 벤치마킹 분석* 통한 누락 항목 값 추정
기준
업소별 판매단위 기준으로 보정 후 판매물량 반영하여 연산
검증
해당 항목 합산 통계 값과 비교 (동일 표본, 신뢰수준 95%)
* 히스토리 분석은 해당 숙박업소의 과거 지표와의 비교분석, 벤치마킹 분석은 현재 경쟁시장 평균 지표와의 비교분석을 통칭.