자주하는질문

  • Q.0

    날씨마루 날씨마루 하이브 테이블명인데 'comp'가 붙는 테이블과 안 붙는 테이블의 차이는 무엇인가요?
    예: 'db_sfc_obs_tim' VS 'db_sfc_obs_tim_comp'

    A.0
    ‘_comp’는 ‘비교(compare, comparison)’를 의미하며, 파일 자료 해독시 만들어진 자료입니다. 따라서 데이터 분석시 _comp가 붙지 않은 테이블의 데이터를 사용하는 것이 맞습니다.

    테이블 명을 구성하는 약자 정보에 관하여서는 아래 하이브 매뉴얼을 참고해주세요.

    참고) 날씨마루 게시판→기상데이터→자료실→하이브 매뉴얼

  • Q.1

    날씨마루 날씨마루 하이브의 강수량(rn) 변수에서 ‘9_9’의 의미는 뭔가요?

    A.1
    당일 오전 9시부터 다음날 오전 9시까지의 강수량을 산출했음을 의미합니다. 강수량도 기간 산정에 따라 여러 변수가 파생될 수 있습니다.
  • Q.2

    날씨마루 날씨마루 하이브의 서비스 변수 값이 1일때 의미는 뭔가요?

    A.2
    변수에 ‘_srv_yn’이 붙는 변수는 service yes/no의 약자로 해당 변수에 대한 서비스 가능 여부를 나타냅니다. 이때, 1의 속성값은 서비스가 중단되었음을 의미하며, 결측은 null로 표시되어 서비스 가능을 의미합니다.
  • Q.3

    날씨마루 하이브 테이블의 '최다운형코드' 변수 안에 속성값을 알고싶어요.

    A.3
    운형은 구름의 높이와 형태에 따라 분류한 것으로, 최다 운형 코드는 하루에 가장 많이 관측된 구름의 모양을 의미하며, 그 코드는 다음과 같습니다.
    운형
    Ci 권운 새털구름 상충운
    Cc 권적운 조개구름
    Cs 권층운 햇무리구름
    Ac 고적운 양떼구름 중층운
    As 고층운 회색차일구름
    Ns 난층운 비구름
    Sc 층적운 두루마리구름 하층운
    St 층운 산안개구름
    Cu 적운 뭉게구름
    Cb 적란운 소나기구름
    0 상충운이 없음    
  • Q.4

    날씨마루 db_sfc_rhm_dd_comp 테이블의 '소형증발량'과 '대형증발량' 컬럼의 의미는 무엇인가요?

    A.4
    증발량은 하루 한번(09시) 직접 관측한 값을 일 합계값으로 하고 있습니다. 증발량은 일정 기간 동안 단위 면적에서 증발된 물의 양을 관측한 것으로, 증발계를 설치하여 관측합니다.

    이때, 원통 지름 20cm, 깊이 10cm의 소형증발계로 관측하면 소형증발량, 지름 120cm, 깊이 25cm의 대형증발계로 관측한 대형증발량이 됩니다.

    참고) 날씨마루→분석교육실습→R을 활용한 분석 교육 실습→‘ASOS 자료를 활용한 증발량 산출식‘pdf

  • Q.5

    날씨마루 하이브 데이터 프레임에 다음과 같은 에러 메시지가 나와요. 어떻게 해결해야하나요?
    Error in .jcall(rp, "I", "fetch", stride, block) : java.lang.OutOfMemoryError: Java heap space

    A.5
    날씨마루에 과도한 접속으로 인해 일시적으로 발생한 현상으로 판단됩니다. 항상 날씨마루 분석 서버를 점검·관리하고 있으니 다음과 같은 문제시, 02-2181-0927로 주세요.
  • Q.6

    날씨마루 하이브 데이터 테이블을 확인하려는데 안 열려요.

    A.6
    간혹, JDBC가 테이블의 결과를 모두 담지 못합니다. RStudio 상단 메뉴의 Session - R restart를 실행 후, dbGetQuery(conn, “select * from 테이블명 limit 10”)을 실행하여 결과가 출력되는지 확인해 보세요.

    팁을 드리면, SQL을 이용하여 모든 데이터를 접근하는 것보단 날짜를 지정하여 분석에 사용되는 날짜만 추출하여 사용하시면, 위에 문제를 피할 수가 있습니다.
  • Q.7

    기상데이터 왜 관측 자료는 행정구역별로 되어있지 않나요?

    A.7
    기상관측은 관측 지침에 따라, 행정구역이 아닌 관측소(지점) 기준으로 측정·수집되고 있습니다.

    이때, 우리가 가장 많이 활용하는 지상관측은 ‘지상기상관측지침’을 기반으로 합니다. 대표적 으로 종관기상관측(ASOS, Automated Synoptic Observing System)와 방재기상관측 (AWS, Automated Weather System) 두 가지로 나뉘며, 각 관측의 목적, 기간, 지점 및 항목은 다소 다릅니다.

    종관기상관측 VS 방재기상관측
      종관기상관측(ASOS) 방재기상관측(AWS)
    관측목적
    • 종관규모의 날씨를 파악하기 위해 정해진 시각에 모든 관측소에서 같은 시간에 실시
      * 종관규모: 일기도에 표현되어 있는 보통의 고기압이나 저기압의 공간적 크기 및 수명, 주로 매일의 날씨 현상
    • 지진·태풍·홍수·가뭄 등 기상현상에 따른 자연재해를 막기 위해 실시
    • 관측 공백 해소 및 국지적인 기상 현상 파악
    관측기간 1904년~ 1989년~ (제공 1997년~ )
    (지점별, 요소별 다름)
    관측지점 102개 510개
    관측항목 (자동관측) 기온, 강수, 바람, 기압, 습도, 일조, 시정, 지면상태 등
    (목측) 적설, 구름, 기타 일기현상 등
    (자동관측) 기온, 강수, 바람, 습도, 기압 등

    참고) 날씨마루 자료실→데이터분석→지상기상관측지침, 기상기후데이터카탈로그(2018)

  • Q.8

    기상데이터 지점의 정보를 조합하여 내가 원하는 지역 기상자료를 만들어야 하는 경우가 많은데요. 어떻게 연구에 활용해야 할까요?
    예를 들어 포천시의 경우, 종관기상관측 지점에는 포천시가 없고 가장 가까운 '동두천(98)'이 있어요. 그런데 방재기상관측 지점에는 '포천(504)‘ 외에도 ’포천이동(539)‘이 있습니다. 이들 관측지점 중 어느 지점의 자료를 사용해야 '경기도 포천시' 전역을 대표한다고 볼 수 있을까요?

    A.8
    이 부분에 대해서는 정해진 답은 없습니다. 가까운 지점을 대표로 쓰기도 하며, 평균과 같이 여러 지점의 정보를 종합하여 사용할 수 있습니다.

    일반적으로 관측 지점이 많다는 것은 다양한 특징을 포함합니다. 따라서, 임의의 지점을 대표값으로 정의 하는데 무리가 있어, 가능한 많은 지점의 정보를 활용합니다. 이때, 단순 평균과 같은 방법은 지형적인 특성을 축소하는 오류가 있을 수 있습니다.

    종관기상관측지점은 지형적인 특성을 대표하는 지점으로 보유기간이 길다는 장점이, 방재기상관측은 관측지점이 더 많이 분포한다는 장점이 있습니다.
  • Q.9

    기상데이터 기상청 예보자료는 어떻게 동별로 이뤄지는 건가요?

    A.9
    동별 예보를 생산하는 ‘동네예보’에 관한 질문을 주셨습니다.

    동네예보는 예보모델을 기반으로 내/외삽 방법을 이용하여 격자화(바둑판)하고, 구역을 세분화 하여 발표하고 있습니다. 전국을 5km×5km간격의 격자(동서 745km×남북 1,265km), 총 37,697개로 나누어 3시간마다 읍·면·동 단위의 행정구역 중심으로 지역별·시간별 상세한 날씨를 제공합니다.

    내/외삽 방법이란?

    보간법(알고 있는 데이터 값들을 이용하여 모르는 값을 추정하는 방법)의 하나로, 둘 이상의 값을 이용하여 그 값들 범위 내 값을 추정하는 방법은 내삽(Interpolation), 범위 외 값 추정하는 방법은 외삽(Extrapolation)



    하이브 테이블 ‘fct_wid_dl’(육상), ‘fct_wid_do’(해상)에서 동네예보 데이터가 제공되고 있으니 분석에 참고하세요.

    참고) 날씨마루 게시판 자료실→데이터분석→기상기후데이터카탈로그(2018)
    분석환경→데이터→기상데이터→HIVE 매뉴얼

  • Q.10

    기상데이터 지상기상관측 사용 좌표계는 어떻게 되나요?

    A.10
    좌표는 위도와 경도을 가지고 지도에 표출하게 됩니다. 이때 위도와 경도를 지도 투영법에 따라 표출합니다.

    지도 투영법(Map Projection)이란?

    둥근 지구 표면을 가능한 한 오차를 줄이면서 평면으로 나타내는 방법



    종관 및 방재 기상관측소 지점의 위・경도를 포함한 자세한 지점 정보는 날씨마루 분석환경 빅데이터분석도구→R studio→Files→Readme→AreaInfo 경로의 csv 파일 목록에서 참고해주세요.
  • Q.11

    기상데이터 다양한 국가의 데이터를 활용해야 될 때가 있어요. 우리 기상청 관측 시간의 기준은 무엇인가요?

    A.11
    관측시간 기준에 대한 문의가 많습니다. 국제 사회가 사용하는 과학적 시간의 표준인 UTC (세계표준시)와 KST(한국표준시)가 있습니다. 세계표준시는 본초자오선의 평시로, 한국표준시 보다 9시간이 느립니다.

    KST=UTC+9시간



    기상청은 국외 기상 데이터 수집 및 표출을 위하여, 기본적으로 기상 관측 및 모델에 세계 표준시를 사용하고 있습니다. 이후, 변환을 통해 한국표준시로 표출하여 서비스를 제공하고 있습니다.

    따라서, 세계표준시로 안내되는 항목 외에는 한국표준시 기준의 자료로 사용하시면 되겠습니다.
  • Q.12

    기상데이터 매 시간단위의 자료를 살펴보다보니, 30분 간격의 자료도 보이는데 이는 잘못된 데이터 인가요?

    A.12
    방재기상관측 목적처럼, 기상관측은 기상현상의 파악 외에도 자연재해를 방지하기 위해서도 지점의 특성이나 산불·재난 등의 위급상황 등 필요에 따라 추가적으로 수행되기도 합니다.
  • Q.13

    기상데이터 중기예보를 활용중인데, 10개의 지역으로 구분하고 있더라고요. 이렇게 구분하는 근거는 무엇인가요?
    서울・인천・경기/ 강원도 영서/ 강원도 영동/ 충청북도/ 대전・세종・충청남도/ 전라북도/ 광주・전라남도/ 대구・경상북도/ 부산・울산・경상남도/ 제주도

    A.13
    중기예보는 예보일로부터 3일에서 10일까지 기간에 대한 예보를 의미하며, 기상청 ‘예보 업무규정’에 따라 수행하고 있습니다.

    중기예보의 대상구역은 제 8조에 따른 육상광역예보구역 중 서해 5도, 울릉도・독도를 제외한 예보구역으로 하며, 제 9조에 따른 해상광역예보구역 중 앞바다와 먼바다의 구분 없이 하나의 예보구역으로 합니다.
  • Q.14

    기상데이터 기상청의 예보에서 강수확률이 표시되던데, 어떤 방식으로 강수확률을 산정하나요?

    A.14
    기상청에서 예보하는 강수확률은 ‘현재와 유사한 대기상태에서 예보기간 중 지정된 장소에서 강수가 내릴 가능성을 확률로 나타낸 것’으로 정의합니다.

    쉽게 풀어 설명 드리면, 경험적인 확률로서 강수의 강도나 강수량과 상관없이 0.1mm 이상의 강수가 일어날 확률을 의미합니다. 예를 들어 ‘오늘 서울 영등포구의 강수확률이 40%이다’ 의 의미는 기상조건이 오늘과 같은 날의 10번 중 4번은 비가 왔다라고 해석할 수 있습니다.
  • Q.15

    기상데이터 혹시, 기온 자료를 고도별로 얻을 수 있나요?

    A.15
    레윈존데 데이터를 활용하면 고도별 기온 자료를 얻을 수 있습니다.

    레윈존데란?

    수소나 헬륨으로 채워진 풍선에 라디오존데를 기구에 매달아 비양시켜 지상으로부터 30km이상 상공까지 일정한 시간 간격으로 대기상태를 직・간접적으로 관측하는 방법



    레윈존데는 제주고산・포항・흑산도 등 10개 지점에서 일 2회(오전・오후 9시) 기온 외에도, 바람・기압・이슬점 온도의 기상 관측을 고도와 함께 측정하고 있습니다. 하이브 테이블 ‘db_upp_temp_cdms’를 통해 고도 활용시 연구에 참고하세요.

    참고) 날씨마루 게시판 자료실→데이터분석→기상기후데이터카탈로그(2018)

  • Q.16

    기상데이터 안개 데이터를 살펴보다, 기상청 시정 자료의 의미와 측정법이 궁금해졌어요.

    A.16
    ‘시정’은 대기를 통해 어느 정도의 전망이 가능한가를 측정하며, ‘안개’는 지표에 가까운 대기 중에 물방울이 떠 있는 상태를 의미합니다. 안개는 수평시정이 1km 미만일 때를 관측하며, 일반적으로 대기 중에 물 입자가 다수 포함될 때 발생되기에 상대습도 약 80~100% 범위에서 자주 발생합니다.

    시정은 목측과 시정계를 이용하는 두 가지 방법으로, 동일하게 대기 중의 입자농도를 거리의 관계식으로 산출합니다. 현재 23개 목측 지점을 제외하고, 17년 1월 1일부터 시정계로 자동화 하여 측정하고 있습니다.

    그 단위는 10M로 측정・발표 되기 때문에, 데이터 값 2,000은 20,00M를 의미합니다.

    93(북춘천) 102(백령도) 104(북강릉) 108(서울) 112(인천) 115(울릉도) 119(수원) 131(청주) 133(대전) 136(안동) 138(포항) 143(대구) 146(전주) 152(울산) 155(창원) 156(광주) 159(부산) 165(목포) 168(여수) 169(흑산도) 177(홍성) 184(제주) 189(서귀포)



    참고) 시정 목측 지점 리스트 (23곳)

  • Q.17

    기상데이터 미세먼지 데이터를 쓰고 싶은데, 어디서 찾아야 하나요?

    A.17
    미세먼지는 크기에 따라, PM10(미세먼지), PM2.5(초미세먼지)로 나뉘며, 기상청은 PM10 관측을, 환경부는 PM2.5 관측을 수행하고 있습니다.

    다만, 미세먼지 관련 사항은 환경부 소관으로 기상청과 연계하여 한국환경공단의 에어코리아 홈페이지(www.airkorea.or.kr)를 통해, 실시간 미세먼지 농도를 포함하여 시도별 대기정보와 예·경보를 제공하고 있으니 참고하여 데이터를 수집하세요.
  • Q.18

    기상데이터 매시간 풍향, 풍속은 평균값인가요?

    A.18
    정시의 바람자료는 평균값이 맞습니다. 다만, ‘지상기상관측지침’에 따라 해당 시각의 10분전 부터 정시까지의 10개의 1분 평균 풍향・풍속의 평균값으로 산출합니다. 즉, 13:00 산출값은 12:51~13:00까지의 평균값이 됩니다.

    풍향은 바람이 불어오는 방향이며, 풍속은 단위 시간에 대기가 이동한 거리에 소요된 시간의 비, 모두 지상 10m 높이에서 관측하는 것을 표준으로 합니다.

    기상요소에 따라 시간 산출값의 기준이 다른데, 일조・강수량은 누적값을 사용하는 관측 요소이며, 기온은 관측 시각의 관측값을 사용합니다.

    참고) 날씨마루 게시판 자료실→데이터분석→지상기상관측지침

  • Q.19

    기상데이터 풍향의 16방위는 무엇을 의미하나나요?

    A.19
    기상청에서는 기본적으로 풍향을 N, NNE, NE, ENE(영문표기)등의 16방위로 측정하고 있습니다. 0~360°(북은 0° 또는 360°)로 환산할 수 있으며, 시계 방향으로 동은 90°, 서는 270°가 됩니다.

    1분 자료의 풍향자료에서는 0.1도 단위 관측값도 확인하실 수 있습니다.

    참고) 날씨마루 게시판 자료실→데이터분석→16방위 풍향별, 코드

  • Q.20

    기상데이터 지면온도는 무엇을 의미하나요? 아스팔트 노면온도의 의미로 해석해도 될까요?

    A.20
    지면온도 역시 ‘지상기상관측지침’에 따라 일정 조건 하에 관측하고 있습니다. 그 방법은 온도계 주위 30cm의 잔디를 제거해 맨땅이 노출되게 하고, 직사광선에 의한 오차를 줄이기 위해 감지부의 금속부분을 흙으로 얇게 덮어 측정합니다.

    따라서, 아스팔트 노면온도를 지면온도로 해석하기는 어렵습니다.

    참고) 날씨마루 게시판 자료실→데이터분석→지상기상관측지침

  • Q.21

    기상데이터 일사량과 일조시간 자료는 왜 모든 지점에 없나요?

    A.21
    방재기상관측에서는 일사관측을 수행하지 않고 있으며, 종관기상관측지점 한해 일사량과 일조 시간을 측정하고 있습니다. 지점마다 필수요소가 아닌 경우 관측 장비가 없을 수 있습니다.

    여기서, 일사량은 단위면적이 단위시간에 받는 일사에너지 양으로 정의되며 MJ/㎡단위를 사용합니다. 일조시간은 직달일사가 구름이나 안개 등에 차단되지 않고 경계값 이상 지표면에 도달한 시간을 의미합니다.

    일사와 일조의 측정값은 위 정의에 따른 관측값으로, 고도 및 위・경도 등 주변 환경의 영향을 받기 때문에 관측치 자체에서 반영되어 나타납니다.

    참고) 날씨마루 게시판 자료실→데이터분석→지상기상관측지침

  • Q.22

    기상데이터 습도는 무엇을 기준으로 하나요?

    A.22
    습도란 수증기 함유량에 관한 대기의 상태로 정의됩니다. 혼합비, 절대습도, 수증기압, 비습, 이슬점 온도 등의 다양한 습도 표현방법이 있지만 일반적으로 습도란 상대습도를 뜻합니다.

    기상청 역시 상대습도를 기준으로 습도를 측정·수집하며, 수증기는 대기 중에서 일어나는 일기현상 및 그 변화에 관하여 중요한 요소로서 습도를 측정하고 있습니다.
  • Q.23

    기상데이터 강수자료의 경우, 겨울의 측정시간은 왜 다른가요?

    A.23
    지상기상관측에서 강수량은 동계(11~3월)에는 3시간 누적강수량을, 하계(4~10월)에는 1시간 누적강수량을 관측하고 있기 때문입니다.
  • Q.24

    기상데이터 파고부이 설치 기준점은 각각 다를 것 같은데 어떤가요?

    A.24
    파고부이는 해양기상부이보다 근해에 설치하여, 연안바다의 복잡한 지형에 의해 국지적으로 서로 달리 나타나는 파고를 관측하는 방법입니다. 파고 외에, 파주기, 수온 등을 1시간 간격으로 관측하고 전송합니다.

    전국 59지점의 설치현황, 파고부이 설치 방법 및 각 해역별 지점의 위・경도 정보는 아래 자료와 링크를 참고하세요.

    참고) 날씨마루 게시판 자료실→데이터분석→기상기후데이터카탈로그(2018) 기상청 날씨누리 (https://www.weather.go.kr/HELP/html/help_sfc005.jsp)

  • Q.25

    기상데이터 17개의 기상부이 근처의 해양 수심에 따른 수온변화 자료와 조류수치자료를 얻을 수 있나요?

    A.25
    현재 해양순환모델(MOHID)를 활용하여, 수심에 따른 해양 변화를 예측하고 있습니다. 이 자료는 현재 외부로 제공하지 않으나, www.mohid.com을 통하여 모델에 대한 정보를 확인할 수 있습니다.

    날씨마루 ‘살오징어 어획량 예측’ 서비스 개발 시, 수심별 수온 및 유속 등은 HYCOM 자료를 사용하여 분석했습니다. 이 자료는 hycom.org에서 확인가능하며, 데이터 서버를 통해 다운로드가 가능합니다.
  • Q.26

    기상데이터 풍정은 바람이 대기상에서 한쪽 방향으로 움직인 총 거리라고 들었어요. 풍정을 구하는 공식이나 근사치 측정법이 있는지 궁금해요.

    A.26
    풍정은 대기(공기)가 흘러간 거리를 의미하며, 기상청에서는 ’일 풍정합(24시간 풍정합)‘을 생산하고 있습니다. 24시간동안의 단순 풍속의 합을 뜻하며, 풍향은 고려하지 않은 풍속만의 합으로 식은 아래와 같습니다.

    일 풍정합=일평균풍속X86400, 일평균풍속=1440개의 매분풍속의 평균



    따라서, 분석에 필요한 시간단위에 따라 풍정을 산출하여 활용하시면 됩니다.
  • Q.27

    기상데이터 시간 단위의 최대풍속 자료를 얻는 방법은 무엇인가요?

    A.27
    기상관측자료에서 최대풍속값은 일계 평균 풍속의 최대값인 일최대풍속값을 제공하며, 시간단위 자료에는 존재하지 않습니다.

    따라서, 시간 단위의 최대 풍속값 자료를 위해서는 분 단위 자료를 확인하여 시간별 최대치를 별도로 추출하여 이용하는 방법이 있습니다.
  • Q.28

    기상데이터 어느 정도 비가 와야 많이 왔다고 볼 수 있는건가요?

    A.28
    기상상태를 체감하는 정도는 사람마다 다르기 때문에, 주관적인 영역이라고 볼 수 있습니다.

    다만, 시간당 강우량에 따라 강우 강도를 나타내기도 하며, 일반적으로 1시간에 15mm이상일 때 강한 비가 온다고 표현하고 있습니다.
    용어 강우 강도 비고
    약한 비 1시간에 3mm 미만 강수량 및 적설은 예보에 따라 직접 표현(기상통보문, 기상정보)
    (보통) 비 1시간에 3~15mm 미만
    강한 비 1시간에 15mm 이상
    매우 강한 비 1시간에 30mm

    참고) 기상청 예보용어해설 ‘강수 표현’

  • Q.29

    기상데이터 특정 지점의 정보를 보니, 해당 날짜의 평균기온 6℃, 최저기온 0℃, 최고기온 14.1℃가 나오는데, 최저기온 시각 23:58은 이해가 되지만, 최고기온의 시각이 00:48인게 가능할까요?

    A.29
    일반적으로는 해가 뜨면 기온이 올라가고 해가 지면 기온이 내려가 해뜨기 직전이 최저기온, 해가 남중한 후 최고 기온에 이릅니다.

    하지만, 북쪽에서 시베리아 고기압이 우리나라를 향해 올 경우 기온이 지속적으로 하강하여 저러한 기온 현상도 발생하곤 합니다.

    따라서, 데이터 분석에 기상학적 이해가 필요한 사례입니다.
  • Q.30

    기상데이터 우리가 알고 있는 맑음, 구름 많음, 흐림의 기준은 무엇으로 나타내나요?

    A.30
    구름의 양을 ‘운량’이라고 합니다. 구름으로 덮여 있는 부분을 전체 하늘에 대한 10분수로 표시하며, 0~10사이 정수로 나타냅니다. 이 운량 측정을 기준으로, 누구나 이해하기 쉽도록 기상청은 맑음, 구름 많음, 흐림으로 재표현하고 있습니다. 이때, 구름이 양이 50%까지는 맑음, 60~80%까지는 구름 많음, 90~100%까지는 흐림이라고 나타냅니다.

    운량을 측정하는 요소로는 대표적으로 전운량과 중하층 운량이 있으며, 1일 8회(03, 06, 09, 12, 15, 18, 21, 24시) 관측값을 평균하여 통계로 산출한값입니다.

    참고) 날씨마루 게시판 자료실→데이터분석→지상기상관측지침, 기상청 예보용어해설 ‘하늘 상태 표현’

  • Q.31

    기상데이터 강수량과 강우량의 차이는 뭔가요?

    A.31
    강수량과 강우량 모두 일반적으로 비를 측정하는 용어로 사용됩니다.

    강수는 구름이나 공기 중으로부터 지면에 떨어진 액체 또는 고체의 수증기 응결체로서, 비, 이슬비, 얼음싸라기, 눈, 우박, 눈보라 등을 포함합니다. 눈과 같은 고체성 강수는 융해시킨 물의 깊이로 측정하여 강수에 포함됩니다.

    이와 달리, 강우는 순수한 비의 양만을 의미합니다. 따라서, 강수가 더 포괄적인 개념이며 주로 동절기에는 강수량의 개념을 주로 사용합니다.

    참고) 날씨마루 게시판→자료실→데이터분석→지상기상관측지침

  • Q.32

    기상데이터 적설과 신적설의 차이는 뭔가요?

    A.32
    ‘적설’은 관측노장에 쌓여 있는 눈의 높이를 의미하며, ‘신적설량’은 임의 정해진 시간 동안 내려 쌓인 눈의 높이를 의미합니다. 즉, 측정법에 따라 용어를 다르게 정의합니다.

    기상청은 신적설을 일계를 기준으로 24시간 관측 후 쌓인 눈의 높이인 신적설을 관측하고 다시 털어버리고 다음 신적설을 관측하고 있습니다. 또한, 신적설은 유인기상관측지점에서만 관측하는 값이니 참고하세요.
  • Q.33

    기상데이터 안개와 구름의 차이는 뭔가요?

    A.33
    안개는 구름과 밀접한 현상으로, 떠 있는 위치에 따라 높은 하늘에 떠 있으면 구름, 지표 근처에 떠있으면 안개가 됩니다.
  • Q.34

    데이터분석 분석을 위한 데이터 확보 기간은 어느 정도가 적당한가요?

    A.34
    적합한 데이터의 기간(또는 양)은 분석 목적이나 기법별로 상이하나, 장기간의 변동성을 반영하시길 원한다면, 비교적 많은 기간과 양의 데이터를 확보하는 것을 추천 드립니다.
  • Q.35

    데이터분석 발생여부와 확률을 예측하고 싶어요. (범죄 또는 사고처럼) 발생이 희소한 케이스의 데이터 구성을 어떻게 해야 할까요?

    A.35
    분류문제에서 클래스 불균형이 발생하더라도, (범죄 또는 사고) 발생 횟수의 경우의 수 자체가 많거나 특정 기법의 경우는 클래스 불균형에 영향을 받지 않기도 합니다.

    이러한 경우 외에는, Over Sampling, Under Sampling, Over+Under Sampling등의 다양한 데이터 샘플링 기법을 활용하여 클래스 불균형 문제를 해결할 수 있습니다.
  • Q.36

    데이터분석 데이터 실정상, 국내가 아닌 해외 데이터를 활용하려하는데 가능할까요?

    A.36
    분석주제에 적합한 데이터를 구할 수 없어서 대체하신 경우에, 논리적 타당성을 충분히 제시해 주신다면 가능한 부분입니다. 이때, 해당 지역이 아닌 타 지역의 검증을 추가하여 모형 자체의 적합성을 제시해 주시면, 모형의 설득력을 높일 수 있습니다.
  • Q.37

    데이터분석 연속적인 데이터 결측 구간을 발견했습니다. 어떻게 처리해야할까요?

    A.37
    결측은 데이터 분석의 전처리 단계에서 흔히 발생하는 문제입니다.

    이러한 결측을 처리하는 기준에 대해서는, 정해진 답이 없으며 데이터 전체 사이즈에 따라 각기 다를 수 있어 분석자의 논리가 더욱 필요한 부분입니다.

    일반적으로 결측치가 수치형 자료인 경우에는 평균, 범주형 자료인 경우에는 최빈값 등의 통계값을 사용합니다. 이 외에, 자료의 특성에 따라 knn imputation 등의 알고리즘 기법, 시계열 및 공간통계 기법 등의 다양한 보간 방법이 존재합니다.

    기상 요소의 경우, 특성이 각기 다르기 때문에 이를 고려한 결측치의 대체 값 설정이 필요합니다. 가까운 관측소 값이나 특성이 비슷한 지역을 모형화 하는 등의 다양한 방법을 사용하기도 하는데, 분석 방향에 맞는지 충분한 고려가 필요한 부분입니다.
  • Q.38

    데이터분석 역거리 가중치(IDW) 보간법을 이용하여 특정 위도, 경도에서의 데이터를 추정하고 싶어요. 여기서 위도, 경도를 어느 정도의 간격을 주며 나누어야 최적의 추정값을 얻을 수 있을까요?

    A.38
    보간법을 위한 정해진 간격이 따로 정의되어 있지 않습니다. 분석 주제에 따라 필요한 지점과 주어진 자료의 분포를 분석하여, 여러 간격별로(작은 간격부터 시작) 역거리 가중치 보간법을 적용하여, 모형의 결과가 가장 좋은 간격 범위를 채택하는 것을 추천 드립니다.
  • Q.39

    데이터분석 이상치는 어떻게 처리해야 할까요?

    A.39
    이상치는 단순 데이터 오류부터 특별한 이벤트 발생 등의 다양한 경우를 가지고 있어, 그 의미를 충분히 파악하여 분석에 적용하는 과정이 필요합니다.

    분석 주제와 함께 데이터에 특성에 따라 처리하는 것이 일반적이며, 이상치에 민감한 모형을 사용하는 경우는 이상치를 제거하거나 극백분위수, 구간의 상한값 등을 대체하기도 합니다.
  • Q.40

    데이터분석 데이터가 정규분포가 아닌 한쪽 방향으로 편향된 분포를 이루고 있을 때, 정규화 방법에는 어떠한 방법이 있는지 알고 싶어요.

    A.40
    log변환 외에, Square-Root 및 Box-Cox변환 방법이 존재합니다.
  • Q.41

    데이터분석 독립변수가 범주랑 연속이 섞여 있을 때, 상관성은 어떻게 파악하나요?

    A.41
    상관성은 변수의 특징에 따라 다르게 살펴봐야합니다. 일반적으로, 상관성이란 연속형 변수의 선형 상관성을 파악하는 것을 의미하며, 순서를 가진 범주형 변수는 연속된 숫자로 변환하여 상관성을 파악하기도 합니다.
  • Q.42

    데이터분석 독립변수에 어떤 변수들을 넣어야할지 고민되요.

    A.42
    독립변수에 대한 최종 모형의 결과는 분석 전에 파악하기는 어렵습니다. 따라서, 고려하시는 독립변수를 분석에 다양하게 적용해 보시는 것을 추천 드립니다.

    최종모형이 아니더라도, 실시한 분석들에 관하여 최종 보고서 단계에서 그 차이를 제시하여 내용을 구성하시면 보다 좋은 분석 결과물이 될 것 입니다.
  • Q.43

    데이터분석 변수간의 다중공선성 문제는 어떻게 해결해야 하나요?

    A.43
    다중공선성을 해결하지 않고 분석을 진행할 경우, 모형이 복잡해지고 최종 선정된 독립변수들 간의 상관이 높아 과대적합될 가능성이 있습니다.

    회귀분석에서는 변수 선택법(forward/backward/stepwise selection), 일부 머신러닝 기법에서는 변수 중요도(variable importance)를 토대로 상관계수가 높은 독립변수를 선택하여 제거할 수 있습니다. 또한 주성분 분석을 통해 변수를 축소하여 분석을 수행할 수도 있습니다.
  • Q.44

    데이터분석 날씨 변수를 그룹별로 나눠서 분석하는 것은 어떨까요?

    A.44
    날씨 데이터는 주로 연속 데이터이기 때문에, 범주형 변수로 그룹화하여 분석시 날씨에 대한 상세한 정보를 잃을 수 있습니다.
  • Q.45

    데이터분석 분석하고자 하는 변수와 날씨의 관계에서 시차를 어떻게 모형에 반영하나요?

    A.45
    데이터의 적절한 시점 차이를 탐색하는 방법으로, 시계열 분석을 통해 최적의 시간 차이를 도출하거나 선행 연구에서 밝혀진 결과를 인용하여 모형에 반영할 수 있습니다.

    이러한 지연효과를 반영하는 경우, 일반적으로 종속변수와 독립변수의 시점 간 기간이 짧을수록 모형의 설명력이 탄탄해집니다. 시점 간 기간이 멀수록 그 공백 기간 동안 독립변수가 종속변수에 영향을 미치는 정보가 손실되기 때문입니다.
  • Q.46

    데이터분석 가중치를 설정할 때, 회귀분석 이외에 다른 가중치를 설정할 수 있는 분석 방법이 있나요?

    A.46
    회귀분석 외에도 상관분석, 주성분 분석, 요인분석 등을 활용하는 방법이 있습니다.
  • Q.47

    데이터분석 변수의 P-value가 0.1보다 커요. 이 변수를 모형에 사용해도 되는 걸까요?

    A.47
    모형구축의 객관적 지표로서 유의하지 못한 변수는 반영하지 않는 것이 일반적 입니다. 다만, P-value 값이 절대적 기준이 아니므로, 선행연구나 관련 조사에 따라 통상 적인 P-value값이 아닌 다른 값으로 조정하여 분석한 사례도 있습니다.

    분석자가 생각하는 중요한 변수에 대해 기존 사례나 관련 분석에서 쓰여 왔던 기준이 다르다면, 이와 관련된 충분한 근거의 제시를 통해 해당 변수를 반영한 분석의 타당성을 확보할 수 있습니다.
  • Q.48

    데이터분석 모델의 성능을 개선시키기 위해서는 어떠한 방법이 있는지 궁금해요. 반복적인 학습을 시키면 성능이 개선되겠지만, 동일 데이터를 가지고 성능을 개선 시킬 수 있는 방법을 알고 싶어요.

    A.48
    모델 성능을 개선할 수 있는 두 가지 일반적인 방법을 소개드리겠습니다.

    1. 파생변수 생성: 데이터 전처리를 통해 예측에 필요한 다양한 패턴을 변수에 투입함으로써 모형성능을 향상

    2. 모형 앙상블: 단일 모형이 아닌, 다양한 알고리즘을 사용하여 후보 모형 선택을 통해 앙상블 모형을 개발하여, 기존 단일 모형 대비 예측력을 향상

    이 외에도, 교차 검증과 모형 파라미터 설정 등을 통해 모델의 완성도를 높임으로써 모델의 성능을 개선할 수 있습니다.
  • Q.49

    데이터분석 분류모델을 해석할 때, 모델에서 사용한 중요 변수의 수치 값을 어떻게 확인할 수 있는지 궁금해요.

    A.49
    다양한 독립변수 중 모형 예측에 기여도가 높은 변수를 확인하고 싶은 경우, 변수 중요도(variable importance)의 결과 값을 통해 확인하실 수 있습니다.

    개별 변수의 값과 종속변수 예측값의 그래프를 통해 분기점에서의 확률 변화를 확인하고 싶은 경우, 민감도 분석을 진행 할 수 있습니다.
  • Q.50

    데이터분석 분류모델 성능 평가 방법으로는 혼동행렬을 이용한 방식 외에 어떤 방법이 있나요?

    A.50
    혼동행렬(Confusion Matrix)을 이용하여 기본적으로 정확도(Accuracy), 재현율(Recall) 등의 지표를 활용하며, 이 밖에 AUC, Lift(향상도), KS 등을 들 수 있습니다.

    * AUC : ROC 분석으로 산출되는 ROC 곡선의 아래 면적을 계산해서 모형의 성능을 평가

    * Lift : 기저율(baseline)과 모형으로 향상된 예측 확률 차이의 평가

    * KS: 예측확률에 따른 클래스의 분포 차이를 비교하여 누적비율 차이의 최대값을 평가

연락처 : 042-481-7499 (평일 09:00 ~ 18:00) Email : weathercontest@gmail.com

대전청사 주소 : 우) 35208 대전특별시 서구 청사로 189 (정부대전청사 1동 11-14층)

서울청사 주소 : 우) 07062 서울시 동작구 여의대방로 16길 61 (신대방2동 460-18)

COPYRIGHT ⓒ 2017 KMA. ALL RIGHT RESERVED.

접수 조회
접수번호
접수비밀번호
알림

접속 기간이 아닙니다.

알림