배너
닫기

테크노트

배너

인간 주의 선택을 예측하는 계산론적 모델과 뇌 시각 피질 대응

URL복사
[선착순 무료] 자동차와 전자산업을 위한 AI 자율제조혁신 세미나를 개최합니다 (4/24, 코엑스1층 전시장B홀 세미나장)

인간 대뇌 시각계는 망막에 투영된 모든 정보를 동일하게 처리할 수 없다. 시야 내에서 가장 중요할 것으로 예측되는 물체나 공간 위치를 선택하고, 이를 중점적으로 처리함으로써 실제 환경에 적응한다. 이러한 정보의 취사선택 기능이 주의 선택이다. 최근에는 이 주의 선택은 인공지능 개발에서도 크게 주목받는 기능이다.

 

생체의 시지각을 실현하는 가장 중요한 기능인 주의 선택은 신경세포(뉴런)의 활동을 기록하는 대뇌생리학적 기법뿐만 아니라, 인간 시지각을 계측하는 심리물리학적 기법 등을 이용해 학제적으로 연구되어 왔다. 또한 주의 선택의 뇌 메커니즘과 특성을 이해하기 위해서는 이들 실험에서 얻은 지식을 통합한 신경회로 모델의 구축과 시뮬레이션이 중요하다. 이러한 신경회로 모델의 응답을 정량적으로 평가하기 위해 자연 이미지에 대한 인간의 시선 데이터가 지표로 활용된다. 최근에는 이들 시선 데이터를 학습 데이터로 활용하는 기계학습적인 기법에 기초한 주의 선택 모델 획득 연구도 활발히 이루어지고 있다.

 

이 글에서는 시야 이미지에 대한 인간의 주의 선택 특성을 재현하는 계산 모델에 대해 설명한다. 특히 인간의 시지각을 담당하는 대뇌 시각 피질의 신경회로에 기초한 주의 선택 모델과 심층학습적 기법을 이용한 주의 선택 네트워크 모델에 대해 소개한다. 또한 심층학습에 의해 구축된 주의 선택 네트워크의 정보 처리 계층과 대뇌 시각 피질이 어떻게 대응하는지를 해석한 계산론적 연구를 소개한다. 이들의 모델 구조와 정보 처리 특성으로부터 예측할 수 있는 인간 주의 선택 메커니즘에 대해 살펴본다.

 

대뇌 시각 정보 처리에 기초한 주의 선택의 계산 모델

 

뇌에서는 여러 개의 뉴런이 서로 시냅스 결합을 만들어 신경회로가 구성된다. 외계의 자극을 신경회로가 처리함으로써 인간은 지각이나 인식과 같은 고차 기능을 실현하고 있다고 생각된다. 뇌 영역 중에서 시각 정보 처리를 담당하는 것이 대뇌 시각 피질이다(그림 1).

 

 

인간의 시각 정보 처리는 눈에 투사된 빛을 망막의 시세포가 신경 신호로 변환하는 것으로부터 시작된다. 여기서 변환된 시각 신경 신호는 외측 슬상체(LGN)를 통해 대뇌 1차 시각야(V1)로 보내진다. V1에는 특정 방위로 기울어진 선분에 선택적으로 응답하는 방위 선택성 뉴런과 특정 색상에 선택적으로 반응하는 뉴런 등이 존재한다. 이 방위 선택성 뉴런은 이미지 중의 윤곽을 추출하는 것으로 생각되는데, 다시 단순형 세포와 복잡형 세포로 분류된다. 단순형 세포와 복잡형 세포는 다른 반응 특성을 가지고 있다.

 

심층 컨볼루션 신경망(Deep Convolutional Neural Network, DCNN)에서 컨볼루션 층은 단순형 세포, 그리고 풀링 층은 복잡형 세포와 유사한 특성을 갖는 신호 처리를 실현하는 기구이다. V1의 뉴런으로부터 입력을 받는 제2차 시각야(V2)에서는 V1에서 추출된 윤곽을 조합함으로써 표현할 수 있는 각도나 면에 대해 선택적으로 응답하는 뉴런이 보고되어 있다. 또한 V1이나 V2에서 표현되는 윤곽이나 면 정보를 정리함으로써 대략적인 물체의 형상을 표현하는 제4차 시각 피질(V4)의 신경회로 모델도 제안되어 있다.

 

인간의 주의 선택을 실현하는 대뇌 시각 피질 구조의 이해나 결정되는 주의 선택 위치를 추측하기 위해 다양한 신경회로 모델이 제안되어 있다. 인간의 대뇌 시각 피질의 정보처리계에 기초한 주의 선택의 신경회로 모델 중에서 대표적인 것이 샐리언시 맵(Saliency Map) 모델이다. 이것은 망막이나 V1과 같은 인간 초기 시각계의 처리 경로를 참고로 한 보텀업적인 주의 선택 계산 원리의 개념적인 모델로서 Koch와 Ullman에 의해 제안됐으며, 후에 Itti와 Koch 등에 의해 계산기 상에 실장됐다(그림 2).

 

 

샐리언시 맵 모델에서는 먼저 주어진 입력 이미지를 여러 개의 시각 특징으로 분리한다. 시각 특징으로서 V1에서 검출되는 휘도, 색상, 방위 등이 이용된다. 또한 색상이라면 빨강, 초록, 파랑, 노랑과 같이, 방위는 0°, 45°, 90°, 135°와 같이 상세한 특징 요소로 분할된다. 이러한 특징 요소에 대해 망막에서 볼 수 있는 중심-주변 억제 메커니즘이나 V1의 방위 선택성을 근사하는 함수(difference of gaussian 함수나 gabor 함수)에 의한 필터링으로 이미지 특징 요소별로 요소를 추출한다. 이 추출한 요소에 정규화 처리를 적용함으로써 특징 맵 내에서 우선적으로 주의 선택되는 요소를 강조한다. 이들의 필터링과 정규화를 반복함으로써 입력 이미지 중의 시각 특징 공간 분포를 표현하는 특징 맵이 산출된다. 이 특징 맵은 각 요소별로 산출된다. 시각 특징별로 분할된 요소의 특징 맵을 통합함으로써 특징별로 conspicuity 맵이 구성된다.

 

Conspicuity 맵은 입력 이미지에서 분리된 시각 특징으로 어느 정도 주의 선택이 집중되는지를 보여주는 공간 맵이다. 마지막으로, 특징별 conspicuity 맵을 모두 합해서 입력 이미지로 집중되는 주의 선택 위치를 예측하는 샐리언시 맵이 완성된다. 계산된 샐리언시 맵에서 가장 샐리언시가 높은 영역이 주의 선택되는 공간으로 간주된다.

 

Itti 등에 의해 실장된 샐리언시 맵 모델은 망막에서 V1의 신경 활동에 기초한 주의 선택 위치 예측의 신경회로 모델이다. 인간의 시각 정보 처리에서 고차 대뇌 시각 피질의 뉴런이 보다 구체적인 시각 요소를 표현한다. 이러한 고차의 시각 피질 모델과 처리 특성을 도입한 샐리언시 맵 모델이 제안되어 있다.

 

Russell이나 Wagatsuma의 샐리언시 맵 모델은 V2에서 검출되는 면 정보와 그것을 통합해 대략적인 물체 형상을 표현하는 V4의 시각 피질 메커니즘에 기초해 인간의 주의 선택이 예측된다. 이를 통해 모델의 정도가 높아질 뿐만 아니라 물체 영역에 우선하여 시선이 집중되는 주의 선택 특성이 재현된다.

 

Itti 모델과 Wagatsuma 모델의 샐리언시 맵 모델의 출력 예를 그림 3에 나타냈다. 그림 3에서는 노란색으로 표시된 공간 영역이 우선적으로 주의 선택된다. 초기 시각 피질의 정보 처리에 기초한 Itti의 샐리언시 맵 모델도 주위와는 다른 시각 특징에 주의를 기울이는 인간의 기본적인 주의 선택 특성과 일치하는 경향을 확인할 수 있다(그림 3 위에서 첫 번째 행). 한편, 보다 고차의 시각 피질을 모델화함으로써 주관적 윤곽에 대한 인간 지각 특성이 재현된다(그림 3 위에서 두 번째 행과 세 번째 행).

 

 

지금까지 소개한 샐리언시 맵 모델은 휘도, 방위, 색상의 시각 특징에 기초해 주의 선택 영역을 산출한다. 이들과는 다른 시각 특징으로부터 conspicuity 맵을 생성함으로써 새로운 샐리언시 맵 모델을 작성하는 것이 가능해진다. Uejima 등은 텍스처를 시각 특징으로 이용하는 샐리언시 맵 모델을 제안하고 있다. 이것에 의해 이미지 중의 물체 영역을 강조하고, 보다 정확하게 인간 주의 선택 특성의 재현을 실현하고 있다. 또한 시각 대상의 운동 성분을 검출하는 중측두야(MT, 그림 1)를 모델화하고, 동영상 프레임 간의 운동 콘트라스트를 주의 선택 결정에 이용하는 모델도 제안되어 있다. 앞으로도 샐리언시 맵 모델에 고차 시각 피질의 모델화나 새로운 시각 특징 경로를 도입함으로써 인간의 주의 선택을 보다 재현할 수 있는 모델의 실현이 기대된다.

 

심층 컨볼루션 신경망에 의한 주의 선택 예측 모델의 획득

 

최근에는 DCNN으로 대표되는 심층학습적 기법과 같이 방대한 학습 데이터를 이용한 기계학습에 의해 인간의 지각 능력에 필적하는 정도의 모델을 구축하는 것이 가능해졌다. 앞에서 소개한 주의 선택 위치 예측의 샐리언시 맵 모델은 생체의 뇌 시각 정보 처리계에 기초한 모델이다. 한편 최근에는 심층학습에 의한 기계학습적 기법을 사용해 샐리언시 맵 모델을 생성하는 방법도 활발히 연구되고 있다. 이하에서는 기계학습적 기법에 의해 획득한 DCNN 샐리언시 맵 모델에 대해 소개한다.

 

인간의 시선 위치나 주시 위치는 특정 공간에 고정되지 않고 끊임없이 이동한다. 이러한 시간 경과와 함께 이동하는 인간의 시선 위치는 시선 추적장치를 이용해 계측된다. 시선 위치 데이터는 주의나 시각 탐색의 심리물리 실험적인 연구와 앞에서 소개한 대뇌 시각 피질에 기초한 샐리언시 맵 모델의 성능을 정량적으로 평가하기 위해서뿐만 아니라, 의료나 임상 등의 분야에서도 응용이 시도되고 있다. 또한 기록된 시선 위치 데이터를 학습 데이터로서 적용함으로써 기계학습적인 기법으로 샐리언시 맵을 산출하는 네트워크를 획득하는 것이 가능해진다. 최근에는 제시된 이미지와 그에 대한 실험 참가자의 시선 위치를 계측한 데이터 세트가 인터넷상에 공개되어 있다. 또한 시선 추적장치를 사용하지 않고 컴퓨터 마우스에 의해 실험 참가자의 ‘가장 주목한 공간 위치’를 이용해 기록한 데이터 세트도 공개되어 있다.

 

시선 추적장치에서는 제시된 이미지에 대한 시선 위치의 공간 좌표가 기록된다. 여러 실험 참가자의 주시 위치를 정리한 시선 위치 데이터에 대해 Gaussian 필터를 이용한 컨볼루션을 실행함으로써 인간의 시선 위치나 주의 선택 분포를 반영하는 모의적인 샐리언시 맵을 얻을 수 있다(그림 4 시선 데이터).

 

 

샐리언시 맵을 예측(산출)하는 DCNN를 학습하는 경우, 우선 입력 이미지로는 시선 계측 시에 실험 참가자에게 제시한 이미지를 이용한다. 또한 정답 데이터로서 이 제시된 이미지에 대한 시선 데이터에 기초한 모의적인 샐리언시 맵을 적용한다. 학습에서는 입력 이미지로부터 정답 데이터인 모의적인 샐리언시 맵과 유사한 출력 이미지를 얻을 수 있도록 DCNN를 구성하는 필터를 최적화한다. 구체적으로는 출력 이미지와 정답 이미지의 픽셀 간 평균 제곱 오차를 오차함수로 하고 오차역전파법을 적용해 필터의 최적화를 한다. 이것에 의해 제시 이미지로부터 샐리언시 맵을 고정도로 회귀 예측하는 DCNN를 얻을 수 있다.

 

한편, 물체 식별의 DCNN를 구성하는 모델 뉴런의 출력에 대해 최대우도법을 적용함으로써 샐리언시 맵을 산출하는 모델도 제안되어 있다.

 

그림 4에 시선 데이터로부터 작성한 모의적인 샐리언시 맵을 학습 데이터로 적용해 획득한 DCNN 샐리언시 맵 모델의 출력 예를 나타냈다. 그림 3에 나타낸 대뇌 시각 피질에 기초해 기술된 샐리언시 맵 모델과 비교해 출력층의 모델 뉴런의 응답은 이미지 공간 내에 드문드문 분포한다. 정도의 점에서 비교하면 기존의 샐리언시 맵 모델보다 정확하게 인간의 주의 선택 특성을 재현하고 있는 것으로 확인된다. 학습에 이용되는 데이터의 확충과 네트워크 구조, 학습 방법을 개선함으로써 주의 선택을 더욱 고정도로 재현하는 심층학습의 샐리언시 맵 모델을 실현하는 것이 가능하게 될지도 모른다.

 

그러나 심층학습에 의해 획득한 DCNN 샐리언시 맵 모델의 정보 처리 구조가 어떻게 되어 있는지, 그리고 어떤 특징을 가지고 있는지에 대한 해석은 아직 이루어지지 않았다. 특히, 구축된 DCNN 샐리언시 맵 모델의 네트워크 계층과 대뇌 시각 피질의 대응은 인간 주의 선택의 메커니즘을 이해하기 위한 중요한 지식을 제공할 수 있다.

 

심층학습의 주의 선택 모델과 대뇌 시각 피질의 대응

 

학습에 의해 구축된 DCNN의 정보 표현은 대뇌 시각 피질을 이해하기 위한 효과적인 모델이라고 생각된다. 입력 이미지에 포함된 물체를 식별하는 DCNN인 AlexNet 모델의 초기 계층이 대뇌 시각 피질 V1과 유사한 정보 표현을 가지고 있을 가능성이 보고되어 있다. 한편, 이 모델의 중간층이나 전결합층은 V4나 하측두 피질(IT)과 같은 보다 고차의 시각 피질에 대응하는 것이 시사되고 있다. 앞에서 소개한 DCNN 샐리언시 맵 모델이 획득한 정보 표현 특성의 해석과 이해를 통해 인간 주의 선택 결정의 메커니즘에 대한 새로운 지식을 얻을 수 있는 가능성이 있다. 이하에서는 DCNN 샐리언시 맵 모델과 원숭이 대뇌 시각 피질의 정보 표현 특성을 비교한 연구에 대해 소개한다.

 

Tamura 등은 일본원숭이(Macaca fuscata)에게 8카테고리(돌, 나무껍질, 잎, 꽃, 과일, 나비, 깃털, 가죽) 64장의 물체 표면 이미지(이미지 상세는 문헌 ‘Analysis Based on Neural Representation of Natural Ob ject Surfaces to Elucidate the Mechanisms of a Trained AlexNet Model’의 Figure 2를 참조)를 제시하고, 대뇌 시각 피질 V1, V4 그리고 특정 물체나 질감에 대해 선택적으로 응답하는 뉴런이 존재하는 IT의 신경 활동을 전기생리학적으로 기록했다. 이 실험을 통해 계측된 물체 표면 이미지 제시 중의 평균 발화율이 DCNN 샐리언시 맵 모델과 대뇌 시각 피질의 대응을 평가하는 지표로 이용됐다.

 

Tamura 등의 실험에서 이용된 64장의 물체 표면 이미지를 획득한 DCNN 샐리언시 맵 모델에 적용함으로써 네트워크를 구성하는 모델 뉴런 집단이 활성화된다. 활성화된 각 계층의 모델 뉴런 집단과 각 뇌 시각 피질의 뉴런 응답을 비교하면 DCNN 샐리언시 맵 모델이 획득한 정보 표현 특성을 이해할 수 있을 것으로 기대된다. 그러나 원숭이 대뇌 시각 피질의 신경 활동과 모델 뉴런의 활동 강도 범위 차이나 데이터 규모 차이 등으로 인해 이들의 직접적인 비교는 어렵다. 이러한 다른 측정법이나 기준에 의해 계측된 데이터 간을 비교하려면 비유사도 행렬의 이용이 효과적이다. 이것은 입력으로 이용한 이미지 페어 간의 출력에 대한 비유사도를 계산하고, 그 모든 조합을 2차원 행렬로 정리한 것이다.

 

 

V1의 신경 활동에서 얻은 비유사도 행렬과 DCNN 샐리언시 맵 모델의 제1 컨볼루션 층에 활성화 함수를 적용한 모델 뉴런의 비유사도 행렬을 그림 5 (A)에 나타냈다. 행렬 내의 각 픽셀은 2장의 물체 표면 이미지에 대한 응답의 비유사도를 표현하고 있다. 픽셀값 0(검정)은 2장의 이미지에 대한 출력이 동일하다는 것을 의미하고 있다. 대각선상은 동일 이미지에 대한 출력 비교가 되기 때문에 그 픽셀값이 0으로 되어 있다. 반대로 노란색으로 표시되는 픽셀값 1은 2장의 물체 표면 이미지 간의 정보 표현이 크게 다르다는 것을 의미한다. V1, V4, 그리고 IT의 신경 활동으로부터 비유사도 행렬을 각각 산출한다. 마찬가지로 DCNN 샐리언스 맵 모델의 모델 뉴런 응답을 이용해 각 계층에서 비유사도 행렬을 구한다. 어떤 시각 피질과 DCNN 샐리언스 맵 모델의 특정 계층 정보 표현이 유사한 경우, 이들의 비유사도 행렬도 유사한 경향을 나타낼 것으로 기대된다.

 

대뇌 시각 피질 V1, V4, IT의 신경 활동 데이터로부터 산출된 비유사도 행렬과 DCNN 샐리언시 맵 모델을 구성하는 각 층의 모델 뉴런 응답에 기초한 비유사도 행렬 사이의 상관 강도를 그림 5 (B)에 나타냈다. 그림 5 (B)의 파랑(△)선은 대뇌 시각 피질 V1과 DCNN 샐리언시 맵 모델의 각 계층 간의 상관을 나타낸다. 마찬가지로 DCNN 샐리언시 맵 모델과 V4 간의 상관을 빨강(□)선, 그리고 DCNN 모델과 IT 간의 상관 강도를 초록(○)선으로 각각 표현하고 있다. 어떤 대뇌 시각 피질 영역과 DCNN 모델의 계층이 강하게 대응하고 있는 경우, 상관 강도가 높아질 것으로 기대된다.

 

그림 5 (B)를 보면, 계층 레벨에 의존하지 않고 DCNN 샐리언시 맵 모델은 V4나 IT보다도 V1과 더 유사한 정보 표현 특성을 가지는 것을 확인할 수 있다. 이것은 물체 식별의 DCNN로서 학습된 AlexNet 모델과는 현저하게 다른 경향으로, 물체 식별과 주의 선택이 다른 정보 처리에 의해 결정된다는 것을 알려준다. 또한 만약 이 DCNN 샐리언시 맵 모델을 인간 주의 선택의 신경회로 모델로 생각한다면, 대뇌 시각 피질 V1의 신경 활동이 주의 선택 결정에 중요한 역할을 할 가능성이 시사된다.

 

그렇다면 이 DCNN 샐리언스 맵 모델과 대뇌 시각 피질의 활동을 비교한 결과와 일치하는 주의 선택 메커니즘을 시사하는 연구 보고는 있을까. 흥미롭게도 최근의 연구로부터 초기 시각 피질 V1의 활동이 대뇌 시각계의 주의 선택 결정에 중요한 역할을 할 수 있는 가능성이 보고됐다. 또한 Itti 등의 뇌 시각 처리에 기초한 샐리언시 맵 모델에서도 V1에 해당하는 계층에서 추출되는 시각 특징의 검출과 정규화가 주의 선택 결정에 기본이 된다. DCNN 샐리언스 맵 모델의 해석으로부터 대뇌생리학적 실험 데이터와 신경회로 모델을 지지하는 결과가 시사된 것은 흥미로운 점이다. 주의 선택 결정의 신경 활동 데이터의 계측과 그 지식을 반영한 신경회로 모델 구축, 그리고 DCNN 샐리언스 맵 모델의 해석이 서로 보완적으로 이루어짐으로써 주의 선택 메커니즘에 대한 이해가 더욱 깊어질 것으로 기대된다.

 

맺음말

 

이 글에서는 인간의 주의 선택을 재현하는 샐리언시 맵 모델에 대해 간단히 설명했다. 지금까지 소개한 바와 같이 생체의 대뇌 시각 피질 정보 처리에 기초한 신경회로 모델로부터 기계학습적 기법을 이용하는 DCNN 등 다양한 샐리언시 맵 모델이 제안되어 있다. 그리고 DCNN 샐리언스 맵 모델이 획득한 정보 처리 구조와 대뇌 시각 피질을 비교함으로써 인간의 주의 선택 메커니즘을 이해하기 위한 새로운 지식을 얻을 수 있을 것으로 기대된다. 한편, 이 글에서 소개한 샐리언스 맵 모델의 대부분은 정지 이미지를 처리 대상으로 한 것이다.

 

인간의 주의 선택은 시간이 지남에 따라 시야 공간 내를 이동하기 때문에 시간 개념을 이들 모델에 적용하고 확장하는 것이 응용을 위해 중요할 것으로 생각된다. 또한 주의의 복귀 억제와 같은 인간 시지각의 특성이 시간 경과에 의한 주의 선택의 이동을 재현하기 위해 중요한 요인이 될 가능성도 있다. 더욱이 실용화를 위해서는 보다 효율적인 계산 실현과 모델 경량화, 그리고 입력에 포함되는 노이즈에 대한 강건화 등도 필수가 된다.

 

앞으로의 발전을 위해 고려해야 할 점과 개선점도 많이 있지만, 주의 선택의 이해와 그 모델화는 인간을 이해하기 위해서뿐만 아니라 다양한 분야와 영역에 응용이 기대된다. 계산기의 성능 향상이나 애플리케이션의 개발·개선도 추진되고 있기 때문에 대뇌생리학·심리물리학과 적극적으로 연계해 그 데이터를 도입해 감으로써 앞으로 크게 발전 전개되어 성과를 기대할 수 있는 분야일 것이다.

 

와가쯔마 노부히코, 도호대학 이학부 정보과학과

히다카 아키노리, 도쿄전기대학 이공학부










배너









주요파트너/추천기업