본문 바로가기
AI(인공지능) 이야기

7번째 이야기 - 차원의 저주, 비전형적인 데이터, 강 인공지능

by ØŦΛ 2022. 9. 4.

경주마

경마장을 질주하는 훌륭한 경주마는 상당한 고가입니다. 우승 가능성이 있는 훌륭한 말을 볼 수 있는 눈을 가진 전문가나 팀이 존재합니다. 대체 훌륭한 경주마를 선택하는 데 있어 결정적인 특성(Feature)은 무엇일까요? 또 그 특성은 대체 어떻게 알아내는 것일까요? 경마를 위해 공개되는 두 살 난 말의 경우 공개된 1,000마리 중 고작 5마리 정도만이 우승을 한다고 합니다. 그렇다면 나머지 말들은 어떻게 도는 것일까요?

세스 스티븐스 다비도위츠(2018)에 따르면 3분의 1은 경주를 하기에는 느린 말로 판명된다고 합니다. 다른 3분의 1은 달릴 대의 엄청난 압력으로 인해 부상을 입고, 나머지 3분의 1은 바틀비 증후군 증상을 일으킨다 합니다. , 정신차리고 보니 "내가 왜 달려야 하지? 달리고 싶지 않은데(...)?"를 시전한다는 것이죠.  이제껏 경주마의 성공 예측에 가장 큰 비중인 특성은 '혈통'이었습니다.  그 다음은 두 살 난 말의 걸음걸이와 외형(그것도 전문가라고 불리는 사람들조차 전혀 합의되지 않은) 정도였죠.)정도 였죠. 이것이 좋은 경주마를 선택하는 인간의 통념이자 직관이었습니다.

데이터를 가지고 있으면 A/B테스트를 해볼 수 있습니다. 아무도 눈치채지 못하게 거대한 실험의 장을 몇 번이고 열 수 있고, 결과에 영향을 미치는 최적의 변수들을 보다 효과적으로 찾아낼 수 있습니다. 전통적인 특성인 혈통은 철저히 배제된 테스트가 계속 시도됩니다. 그 결과 좌심실의 크기와 비장의 크기가 경주마에게 가장 중요한 특성임을 밝혀냅니다.  세상은 복잡계입니다. 이를 컴퓨터로 처리하려고 하다보면 '차원의 저주(Curse of dimensionality)'에 걸리게 됩니다. 차원이 증가하면서 학습데이터 수가 차원 수보다 적어져서 성능이 저하되는 현상을 일컫습니다. 차원이 증가할수록 변수가 증가하고, 학습할 데이터 수가 적어집니다.

복잡계

빈 공간은 컴퓨터에서 0으로 채워진 공간이죠. , 정보가 없는 공간이기 때문에 빈 공간이 많을수록 학습시켰을 때 모델 성능이 저하될 수밖에 없습니다. 물론, 변수가 증가한다고 반드시 차원의 저주가 발생하는 것은 아닙니다. 관측치보다 변수 수가 많아지는 경우에 차원의 저주 문제가 발생하는 것입니다. 어쨌든 세상에는 다양한 특성과 변인들이 존재하고, 실험을 많이 진행하다보면 운 좋게 전혀 상관없는 것이 상관이 있다는 결과를 낳을 수 있습니다. , 데이터를 들여다만 보면 기막힌 솔루션이 나와..라는.. 식의 '데이터 만능주의'를 말하고자 하는 것은 아닙니다.

데이터는 사람들의 직관과 통념을 지지하는 것을 넘어서서, 직관을 반증하고, 또 다른 관점과 시각을 제시해줄 수 있습니다. 비전형적인 데이터를 다룸으로써 새롭고 신선한 인사이트와 성과를 얻을 수 있습니다. 이것이 많은 도메인 과학자들, 사회과학자들, 경제학자들이 구글 데이터와 페이스북 프로필 데이터, 트위터 검색기록을 코드화 하기 위해 모니터 앞에서 사투를 벌이는 이유일 겁니다..

 

2022년에 다트머스 회의(1956)가 열린다면?

인공지능 정의

Stuart Russel, Peter Norvig(2019)은 인공지능의 정의를 다음과 같이 네 가지 범주로 분류했습니다. 사고와 행위, 인간의 수행능력과 합리성의 2차원으로 배치한 것이죠. '인간적 사고''인간적 행위'의 범주를 모두 만족한다면 가장 강력한 일반 인공지능(강 인공지능)이라고(강인공지능) 볼 수 있을 것 같습니다.

'합리적 사고''인간적 사고'까지는 아니지만 나름대로 합리적이고 논리적인 생각의 과정과 결과를 낼 수 있어야 합니다. 개인적으로 '설명 가능한 인공지능(XAI)'의 현실적인 목표는 바로 이 범주라 생각합니다. 지금의 인공지능 기술은 과연 어느 범주의 언저리에서 맴돌고 있을까요?

- 과연 생각을 해야 할까요?? 아니면 행위만 잘하면 될까요?

- 인간처럼 굴어야 할까요? 논리적, 합리적이기만 하면 될까요?

지금의 '인공지능'은 엄밀히 말하면 '인공지능기술'이며, 메타인지를 탑재한 인간의 지능이 아니라 인간의 기능(Human Functionality)을 구현한 것입니다.  그렇게 본다면 지금의 구현된 인공지능기술은 대부분 '합리적 행위'의 범주에 있다 볼 수 있을 것 같습니다. 과연 어느 정도까지 구현되어야 '인공지능'이라 불릴 수 있다 생각할 수 있는지 학생들과 이야기 나눠보는 것도 좋을 것 같습니다.  이 질문은 곧, 아직도 명확히 정의되지 않은 '인공지능'이라고 하는 개념을 명확히 정의하는 것과 연결됩니다.  1956년에 있었던 다트머스 회의를 나의 학생들이 있는 교실로 가져와보는 것은 어떨까요?

인공지능

 

소싯적 '만약 내가 저 학교에 진학했더라면..?' 등의 가정을 품어보고, 미래를 상상해보던 적이 많았습니다.

명문고등학교에 대한 사람들의 환상이 있습니다. 명문고에 진학하면 좋은 대학교, 좋은 직장, 여유롭고 평탄한 인생이 펼쳐질 가능성이 높을 것이다라고 하는 기대죠.

학교

미국에서 명문고 중 아주 유명한 곳이 스타이버선트 고등학교입니다. 이 학교를 두고 어느 한 데이터 과학자의 자연 실험이 실시되었습니다. 그 실험의 목적은 이것이었습니다. 과연 저 학교에 갔더라면 사람들의 인생에 유의미한 차이가 났을까 하는 것입니다. 하지만 이 실험에서 유의할 점이 있습니다. 스타이머선트 고등학교를 졸업한 학생들이 좋은 성적을 내는 이유는 이미 스타이버선트 고등학교에 진학한 학생들이 좋은 학생을 애초에 보유했기 때문일 수도 있습니다. , 상관관계는 분명하지만 그렇다고 이것이 인과관계를 보장하지는 않는다는 말과 같습니다.

인과관계를 살펴보려면 어떻게 할 수 있을까요? 어디서 그런 데이터를 살펴볼 수 있을까요? 이때 유용하게 쓰일 수 있는 방법이 커트라인 점수대에 걸쳐진 학생들을 비교하는 것입니다. 커트라인에 1~2점 못 미쳐 떨어진 학생들과 1~2점 차로 합격한 학생들을 추적하는 것이죠.

때론 이러한 방법이 너무 유용해서 경제학자들은 '회귀 불연속 설계(Regression Discontinuity Design)'라고 부르기도 합니다. 세스 스티븐스 다비도 위츠(2018)에(2018) 의하면 두 개의 다른 집단으로 구분하는 정확한 수치(불연속)가 있다면 경제학자들은 커트라인에 아주 가까운 사람들의 결과를 비교(회귀)할 수 있다고 이 용어를 풀이했습니다.

회귀 불연속 설계

여하튼 이 커트라인 점수대의 학생들을 면밀히 클로즈업하는 일을 시작했습니다. 사실 이러한 작업이 가능한 이유는 빅데이터를 보유했기 때문에 가능한 일이었죠. 조금 더 면밀하게 부분을 살펴보고, 클로즈업해볼 수 있다는 점이 빅데이터의 위력이자 장점입니다.

연구 결과는 어땠을까요? '엘리트 환상'이라는 말로 정리할 수 있을 것 같습니다. 스타가버선트 효과라는 것은 존재하지 않았습니다. 커트라인에 가까운 학생들은 비슷한 대학입시 점수를 받았고, 입학한 대학의 순위에도 유의미한 차이가 없었습니다.

이렇게 되면 결국 스타이 버선트 고등학교에 입학하기 때문에 좋은 입시 성적을 거둔다는 것이 아니라 좋은 학생이 애초에 스타이로 진학하기 때문이라는 결론을 낼 수 있을 것 같습니다. 배경이 비슷하고 같은 학교에 합격했어도 다른 학교를 선택한 경우도 마찬가지입니다. 그들은 매우 비슷한 수입과 사회적 지위를 얻었습니다. 모든 사람들은 거짓말을 합니다. 그런데 세상도 각종 매체들도 거짓말을 합니다. 이 학교에 가는 것이 성공을 담보한다고 말이죠. 데이터는 말합니다. 차라리 덜 유명한 학교에 입학하는 편이 최소한 경제적으로는 좋은 결정이 될 수 있다고 말이죠. 그러므로(..) 후회하지 맙시다.

댓글