배너
닫기

테크노트

배너

DAD(Deep Anomaly Detection)란?

URL복사
[선착순 무료] 자동차와 전자산업을 위한 AI 자율제조혁신 세미나를 개최합니다 (4/24, 코엑스1층 전시장B홀 세미나장)

마크베이스

 

DAD는 정상이 아닌 값을 딥러닝 기술을 이용하여 자동으로 학습하고 감지하는 기술이다. 이 기술은 다음과 같은 분야에서 다양하게 적용될 수 있다.

 

· 시계열 센서 데이터를 이용한 생산 비정상 감지 : 생산공정 데이터를 이용하여 장비/설비가 오동작 혹은 고장에 의해서 생산과정에서 발생하는 오류를 감지할 수 있다.

· 침입(Intrusion) 감지 : 서버나 네트워크의 로그 데이터를 기준으로 시스템에 대한 불법적인 침입을 패턴화하여 감지할 수 있다.

· 오용(Fraud) 감지 : 개인 정보, 건강 정보, 금융, 보험, 통신 등의 분야에 대한 오용 감지를 수행할 수 있다.

· SNS 비정상 감지 : SNS 비정상적인 사용을 감지할 수 있다.

 

DAD와 Machbase EdgeMaster, TimeSeries DBMS의 접목

 

Machbase EdgeMaster는 Edge장비에서 데이터 수집, 필터링, 저장, 가시화 기능을 갖고 있으며, 이를 클라우드나 단일 서버에 주어진 규칙대로 데이터의 유실 없이 전송하는 기능을 가지고 있다.

 

Machbase Timeseries DBMS는 TPCx-IoT 세계 1위의 성능을 자랑하는 실시간 시계열 센서 DBMS로, 마크베이스는 스마트 팩토리 분야에서 최고의 데이터 처리 제품으로 자리하고 있다.

 

이제 마크베이스의 제품으로 수집된 데이터를 좀 더 정확하고 빠르게 분석하기 위해서 DAD를 비롯한 AI 기능의 통합에 대한 연구 개발을 진행하고 있다. 차후에 개발할 마크베이스의 솔루션은, 데이터의 수집, 저장, 가시화, 분석뿐만 아니라, AI를 이용한 생산 데이터 진단을 통해 스마트 팩토리를 구현하는데 최적의 제품이 될 것이다.

 

 

Time Series 데이터의 구성

 

Time Series 데이터는 Seasonality(계절성), Trend(추세), Remainder(잔차)로 분해할 수 있다. Seasonality는 Time Series 데이터 전체에 걸쳐 짧은 주기로 반복되는 패턴을 의미하고 Trend는 시계열에서 전반적으로 나타나는 증가 혹은 감소세라고 할 수 있다. 그리고 이 두 가지로 설명되지 못하는 불규칙 요인을 Remainder라고 부른다.

 

이렇게 Time Series 데이터의 종류를 파악하고 Trend, Seasonality, Remainder로 나누는 작업을 Time Series Decomposition(시계열 분해)라고 한다. Time Series Decomposition 시에는 데이터의 모양에 따라 두 가지 방법으로 진행되는데, 바로 Additive Model과 Multiplicative Model이다.

 

Additive Model 시계열은 Seasonality와 Trend, Remainder의 합으로 이루어지며 Multiplicative Model 시계열은 셋의 곱으로 이루어진다. Additive Model의 시계열은 Trend가 변한다 하더라도 데이터의 진동수와 진폭이 비교적 일정하지만 Multiplicative Model의 경우 데이터의 Trend가 변함에 따라 진동수와 진폭이 같이 변하는 것이 특징이다.

 

 

Time Series 데이터를 예측할 때 Decomposition을 통해 문제를 보다 단순화시킬 수 있다. 그렇다면 DAD의 관점에서는 어떨까요? 진동센서가 부착된 베어링이 노후화되면서 진동센서의 Remainder 분산이 커진다거나, 지구온난화로 인해 월 평균 기온의 Trend가 비정상적으로 증가하는 경우를 생각해볼 수 있다.

 

혹은 항상 동일하던 Seasonality가 어느 순간 어긋나는 경우를 비정상이라 할 수 있다. 즉, 이상 감지 문제에서도 Time Series의 구성요소를 파악하는 것은 매우 중요한 일이다.

 

 

Univariate vs. Multivariate

 

이번에는 종속변수의 갯수에 따라 Time Series 데이터를 구분해보겠다. 날씨를 예측한다고 해보자. 가령 ‘부산’의 기온을 예측한다고 가정했을 때 시간과 과거의 기온을 사용해볼 수 있을 것이다.

 

풍속을 예측한다 하더라도 시간과 과거의 풍속만을 고려할 수도 있고, ‘시간-기온’, ‘시간-풍속’처럼 시간에 종속되는 변수가 하나뿐인 경우를 상정할 수 있다. 이를 가리켜 Univariate Time Series(단변량 시계열)이라고 한다.

 

 

그런데 ‘날씨’를 기온, 풍속, 강수량 각각 별개의 항목으로 예측할 수는 없다. 날씨, 강수량, 습도, 바람 등이 복합적으로 고려되어야 비로소 날씨를 예측할 수 있다.

 

이렇게 각각의 종속변수가 시간뿐만 아니라 다른 종속 변수에도 영향을 받아 복잡한 시계열을 이루는 경우를 Multivariate Time Series(다변량 시계열)이라고 한다.

 

당연하게도 Multivariate Time Series가 Univarite Time Series보다 분석하기가 어렵다. 기존에는 Univariate Time Series의 경우 ARIMA(Auto-Regressive Integrated Moving Average) 모델 등을 사용하였으며, Multivariate의 경우 VAR(Vector Auto-Regressive) 모델 등을 사용하였지만 Multivariate Time Series 특유의 복잡성으로 인해 큰 효과가 없었다.

 

오늘날에 와서는 딥러닝에 관한 많은 연구가 이루어지면서 복잡한 문제의 패턴 인식이 가능해졌기 때문에 Multivariate Time Series의 분석을 딥러닝으로 해결하고자 하는 추세에 있다.










배너









주요파트너/추천기업