Trend & Issue/@AI & Data

〔빅데이터〕구글 신은 모든 것을 알고 있다 !

Paul Ahn 2019. 7. 9. 08:24

〔빅데이터〕구글 신은 모든 것을 알고 있다 !

http://www.dongabiz.com/Business/General/article_content.php?atno=1206104501&chap_no=1&sdkey=14473251588&src=email&kw=&access_from=183&click_date=46041852&p=2#TOP

 

  통계물리학적으로 세상을 보면 대부분의 현상을노드(node)’링크(link)’로 이뤄진 네트워크로 분석할 수 있다. 네트워크 조직은 복수의 허브가 있는 항공망식으로 구성될 때 적자생존에 가장 적합함이 생물학적, 수학적으로 증명된다.

 

특히 기업 조직에선 적당한 구조와 유연한 연결성이 중요하다. HP와 카카오의 사례에서 보듯 네트워크의 변화를 끊임없이 관찰하며 이에 맞게 재조직하는 것도 중요하다.  

 

2013년 초, <구글 신은 모든 것을 알고 있다>라는 도발적인 이름의 책이 출간돼 눈길을 끌었다. 인터넷 업계 전문가나 경영 구루가 쓴 책이 아니다. 순수과학자인 KAIST 물리학과의 정하웅, 이해웅, 그리고 바이오 및 뇌공학과의 김동섭 교수의 강연을 모은 것이다.

 

특히 책의 제목이 된 첫 번째 챕터를 맡은 정 교수는 <네이처>를 비롯한 유명 학술저널에 수십 편의 논문을 게재한 스타 과학자이자 인기 강연자다. 인터넷상엔 강연 동영상이 셀 수 없을 정도로 많다.

 

책은 5, 8000부가량 팔렸다. 과학 관련 서적으로는 높은 판매량이다.   정 교수는 서울대 물리학과 87학번으로 같은 학교에서 통계물리학과 프랙탈(fractal)연구로 석사, 박사 학위를 받았다.

 

그리고 1999년부터 2001년까지 미국 노터데임(University of Notre Dame)대에서 연구원으로 일하던 도중 네트워크와 복잡계(complex systems)로 연구방향을 돌렸다. 세상을네트워크로 분석하는 그의 시각은 과학계는 물론 기업계와 일반 대중에게도 신선한 충격을 던져주고 있다.  

 

정 교수는 세상의 여러 대상을노드(node)’링크(link)’로 이뤄진 네트워크로 분석한다. 분자 단위의 생명체부터 시작해 광활한 우주의 성운, 성단도 모두 일종의 네트워크다. 또 출퇴근길 지나야 하는 도로망이나 매일 출근해 일하는 기업 조직 역시 노드와 링크로 이뤄진 네트워크다.  

 

그의 네트워크 연구를 세계적으로 알린 건 1999년 노터데임대 동료인 바라바시(Albert-Laszlo Barabasi) 교수와 함께 과학저널 <네이처(Nature)>에 펴낸인터넷: 월드와이드웹의 지름(The diameter of the world wide web)’이란 단 한 쪽짜리 논문이었다.

 

이들은 당시 급격히 늘어나던 인터넷 웹사이트들이 무질서하게, 혹은 바둑판이나 피라미드형으로 연결된 게 아니라 소수의 허브를 중심으로 한 항공망형 네트워크 구조를 갖고 있다는 걸 최초로 밝혀냈다.  

 

뒤이어 발표한복잡한 네트워크가 실수나 공격을 견디는 힘(Achilles’ Heel of the Internet: error and attack tolerance of complex networks)’은 아예 <네이처> 표지 논문으로 실렸다.

 

(그림 1, 2) 이 논문에서 그와 동료들은 항공망형 구조가 허브를 노리는 의도적 공격(attack)에는 취약한 편이지만 그 대신 무작위적으로 발생하는 고장(failure 혹은 error)에는 가장 영향을 덜 받는 구조임을 밝혔다.

 

누가 의도한 것은 아니지만 현대의 인터넷망이 자연스럽게 항공망형으로 발달한 것 역시 바로 이런 안정성 때문이라는 것이다. 이 두 논문은 지금까지 각각 4000회 이상 인용됐다.

 

 

 

그림 1 국가별 인터넷망을 네트워크 구조로 분석한 그림  

 

대전 KAIST 자연과학동에 있는 정하웅 교수의 연구실을 찾았다. 그는 2012년에는 다보스 하계 세계경제포럼에젊은 과학자(Young Scientist)’로 초청되기도 했다. 석좌교수이자 학과장까지 맡고 있는 정 교수는 분주한 모습이었다.  

 

 

◇어떻게 책을 썼나.

 

학교(KAIST)와 외부 출판사(사이언스북스)에서 함께 기획을 해서카이스트 명강시리즈를 만들기로 했다. 어려운 과학을 과학계 외부의 사람들에게 설명해보자는 취지였다. 첫 번째로정보라는 주제를 잡아 세 명이 선택됐고 그중 내가 첫 번째로 복잡계, 빅데이터 등의 주제를 설명하게 됐다.

 

책에 실린 내용은 3회에 걸쳐 총 아홉 시간 정도 걸린 강연을 정리한 것이다. 내가 말이 좀 빨라서 다른 교수님들보다 분량이 많아졌다.  

 

 

요즘 유행인 빅데이터 분석을 먼저 해왔던 셈이다.

 

통계물리는 원래부터 큰 숫자를 다뤄왔기 때문에 굳이빅데이터라는 말을 쓰지 않는다. 빅데이터가 새삼 주목받는다고 해서 부럽거나 하진 않다. 사실 네트워크 분석은 오래전부터 사회학에서 많이 해왔다. 다만 차이가 있다면 사회학자들은 데이터가 워낙 없기 때문에 끽해야 100명 정도 되는 크기의 네트워크들을 분석할 수밖에 없었다.


이들은파티에서 만난 사람들이 어떻게 인터랙션할까등을 연구하곤 했다. 그러면서 지표들은 아주 많이 만들어 놨다. 우리는 그런 지표를 가지고 더 큰 데이터를 통계물리학적으로 분석하고 좀 더 효율적인 지표를 개발한다. IT산업과 인터넷이 발전하며 대부분의 정보가 디지털로 저장되는 세상이라 그게 가능해졌다.  

 

 

통계물리라는 말이 생소하게 들린다.

 

물리학 하면 일반적으로 뉴턴과 아인슈타인, 상대성이론 같은 것이 생각나는데. 통계학이나 산업공학 등과는 어떻게 다른가.   간단하게 설명하자면 물리학은 뉴턴의 고전역학에서 맥스웰의 전자기학으로, 그리고 양자역학의 순으로 발전해왔다고 볼 수 있다.

 

상대성이론은 고전역학을 더 정확하게 하기 위해 나온 이론이다. 통계역학, 혹은 통계물리는 고전역학에서 열(heat)에 대해 연구하다가 나오게 됐다.   과거 사람들은 열이 어떤 새로운 에너지일 것이라고 봤다. 그런데 알고 보니 열이라는 건 물체를 이루고 있는 분자가 얼마나 빨리 움직이느냐에 따라 결정되는 것이었다.

 

그런데 분자라는 건 아보가드로 수1) 만큼 많다. 분자 하나하나의 움직임을 분석한다는 건 불가능하다. 많은 분자의 움직임의 평균을 계산하기 위해서 통계물리학이 탄생하게 됐다.   이처럼 물리학은 원래 큰 숫자를 다룬다. 원자 하나를 파고드는 연구가 아닌 이상 물리학 연구에서 다루는 숫자는 어마어마하게 크다.

 

그러니 통계물리가 다루는 영역에도 제한이 없다. 통계물리학자들은 별의별 연구를 다 한다. 물리학의 경계를 넓혀가는 학문이다.  

 

 

그중에서도 네트워크와 복잡계를 연구하게 된 이유는.

 

87학번으로 물리학과에 입학하자마자 ‘972’라는 컴퓨터 동아리에 가입했다(972는 창립멤버들의 아이큐를 다 더한 값이다. 멤버가 몇 명이었는지는 상상에 맡긴다). 당시는 개인용 PC는 없었고 학교 전산소에 있는 메인프레임에 단말기를 연결해서 쓰던 시대다.


그때 컴퓨터에 완전히 빠져들었다. 1년 내내 도서관과 강의실, 전산실 세 곳만 오가면서 살았다. 그러다가 3학년 때 수리물리학을 가르치시던 김두철 교수님의 강의에 매료됐다. 수리물리에는 컴퓨터를 이용하는 전산물리라고 하는 파트가 있어 컴퓨터를 좋아하는 나에겐 더할 나위 없었다. 그래서 석사와 박사까지 아무 고민 없이 전산물리, 통계물리를 전공하게 됐다. 연구주제는 프랙탈(fractal) 이론이었다.  

 

박사를 마치고 미국으로 건너가 포닥(박사 후 연구원)으로 프랙탈 연구를 하던 중에 동료 바라바시 교수와 함께재미로 이런 거 한번 해보자고 틈틈이 짬을 내어 시작한 게 월드와이드웹 연구였다. 그런데 결과가 처음 예상과는 달랐다. 뭐 대단한 게 있겠냐고, 당연히가우시안분포가 나오지 않겠냐고 예상하고 시작했는데 예상 외로 멱함수 곡선(power curve)이 나온 거다.  

 

쉽게 얘기하면 이런 거다. 인터넷 웹페이지들은 수많은 링크로 서로 연결돼 있다. 각 페이지들마다 연결돼 있는 링크의 수는 다 다르다. 우리는 웹페이지들의 네트워크가 도로망처럼 생겼을 거라고 가정했고, 따라서 그 페이지당 링크 수의 분포는 종 모양으로 불룩할 것으로 예상했다.

 

그런데 실제로 데이터를 분석해봤더니 항공망 모양의 네트워크였다. 이런 모양의 네트워크에서는 대부분의 웹페이지들이 아주 적은 수의 링크로 연결돼 있지만 소수의 웹페이지는 엄청 많은 수의 링크를 가진, 이른바허브역할을 하고 있다. (‘도로망과 항공망참조.)  

 

 

도로망과 항공망 미국의 각 도시를 연결하는 교통망은 크게 보아 도로망과 항공망, 두 가지를 생각해볼 수 있다.

 

도로망은 도시와 도시를 연결하는 고속도로의 네트워크다. 그림 왼쪽과 같이 도로망은 골고루 퍼져 있다. 반면 항공망을 그림으로 그려보면 도로망처럼 균일하지 않다. 대다수의 조그만 도시는 연결선이 많지 않은 반면 소수의허브 공항에는 쏠림현상으로 연결이 집중돼 있다.

 

LA, 시카고, 뉴욕 등이 허브다. 즉 도로망은 공평한 연결이고 항공망은 쏠림현상이 있는 연결이다.   각 점이 몇 개의 선으로 연결돼 있는지 살펴보고 그런 점들이 얼마나 있는지를 세어 그래프를 그려보자. 고속도로 연결망에서는 대부분 서너 개로 연결돼 있기 때문에 평균 근처에 몰려서 종 모양으로 뾰족 튀어나오게 그려진다.

 

똑같은 방식으로 항공망 네트워크를 분석하면 공항 대부분이 조그마한 탓에 연결선이 한두 개밖에 없어서 그래프 왼쪽에 점들이 거의 다 몰려 있는 것으로 나타난다. 하지만 오른쪽으로 가면 고속도로에서는 찾아볼 수 없던 연결선이 매우 많은 도시들, 즉 허브 공항이 많지는 않지만 나타난다.

 

 

수학적으로 이런 항공망 그래프는 분수함수(멱함수)를 따른다고 말한다.  

 

이걸 보고 우린 깜짝 놀랄 수밖에 없었다. 왜냐면 물리학에서 분수함수가 갖고 있는 의미 때문이다. 자연에서 분수함수는 뭔가 특이하고 뭔가 대단한 일이 일어날 때만 나타나는 모양이다. 예를 들어 물에 열을 가해서 덥힌다고 할 때 온도가 50도에서 100도로 올라갈 때까지는 별다른 일이 벌어지지 않는다.


하지만 100도에 도달하는 순간에는 액체가 기체로 바뀌는상 전이가 벌어지면서 분수함수가 그려진다. 자세하게 설명할 수는 없지만 어쨌든 모든 물리학자들은 다 알고 있다. 무언가에서 분수함수가 나온단 얘기는 뭔가 중요한 일이 벌어지는 지점이라는 걸.  

 

인터넷 웹페이지에 대한 우리의 논문이 물리학 논문으로 인정받고 또 <네이처>지에 실릴 수 있었던 이유도 분수함수가 나왔기 때문이었다. 또 그 논문에서 우리는 그 당시 전 세계 약 8억 개의 웹페이지가 9단계의 링크로 거의 모두 연결된다는 것도 발견했다.


이런 네트워크에 대한 연구는 우리가 거의 시초였다. 우리가 처음 시도했고 또 우리가 남들보다 더 잘했다. 지금도 농담처럼 얘기한다. 그 당시 쓴 논문들은 <네이처>에 던져주기만 하면 다 받아줬다고. 물론 물리학적인 바탕도 있는데다가 직접 코딩도 할 줄 알았기 때문에 가능했던 일이다. 인터넷의 발달과 때가 잘 맞았다.   항공망 모양의 네트워크가 도로망 모양의 네트워크보다 우수한 이유는 무엇인가.

 

그건 우리가 두 번째로 실었던 <네이처> 논문에서 밝혔다. ‘인터넷의 아킬레스 건(The Internet’s Achilles’ Heel)’이란 제목으로 저널 표지에 실렸다. 이것은 웹페이지뿐 아니라 물리적인 인터넷망 역시 항공망 모양으로 생겼고 분수함수로 설명이 된다는 내용이었다.(그림4)  

 

여기에는 양면성이 있다. 어떤 시스템이 망가지는 경우에는 두 가지가 있다. 누군가 의도적으로 하는공격측면, 그리고 무작위하게 발생하는, 방지할 수 없는고장측면이다. 생각해보면 당연한 얘기지만 몇 개의 허브를 중심으로 수많은 노드들이 연결돼 있을 경우 몇 개의 허브만 파괴하면 전체 인터넷 네트워크는 박살이 난다. 우리가 분석해보니 상위 1% 노드만 파괴해도 인터넷의 절반이 무너지며 상위 4%를 파괴하면 완전히 무용지물이 된다.

 

누가 공격을 하려고 마음을 먹는다면 당연히 허브들이 아킬레스건, 약점이 된다.   그런데 의도적으로 하는 공격은 당연히 허브에 집중되겠지만 무작위로 발생하는 고장은 그야말로 무작위하게 생기기 때문에 허브에서 고장이 발생할 확률은 극히 적다. 예를 들어 전체 노드의 수가 10억 개고 그중 허브 역할을 하는 노드는 5개라 하면 허브에서 고장이 생길 확률은 10억분의 5에 불과하다. 거의 생기지 않는다고 보면 된다. 고장은 보나마나 수많은 조그만 노드들 중 어느 한 곳에서 발생할 것이다.


이런 경우 피해는 거의 없다고 봐도 된다. 설령 극히 작은 확률로 허브에서 고장이 난다 해도 다른 허브들이 연결 역할을 대신 맡을 수 있으므로 아주 치명적인 피해는 오지 않는다. 우리는 이렇게 항공망 네트워크가 도로망 네트워크보다 고장에 대해 더 튼튼하다는 것을 수학적으로 보여줬고, 또 인터넷망 네트워크가 바로 항공망 구조를 갖고 있다는 것도 보여줬다.  

 

사실 효율성 측면에서 보면 가장 좋은 건 가운데 대장으로 모든 것이 집중되는 스타형 구조다. 그런데 그 대장이 없어지면 그 네트워크는 죽는다. 그래서 처음 인터넷이라는 시스템을 설계할 때 기술자들이 스타형이 아니라 분산적인 구조를 만들자고 약속을 했다. 그런데 만들다 보니까 분산적인 구조 중에서도 도로망형이 아니라 항공망형 구조로 자연스럽게 발전한 거다. 항공망형 구조는 의도적인공격엔 취약하지만 그런 공격은 충분히 대비할 수 있다. 그리고 무작위로 발생하는고장에 대해서는 월등히 튼튼하다.  

 

 

인터넷 외의 네트워크들은 어떤 모양인가.

 

인터넷 연구를 하고 난 다음엔 생명과학 쪽을 살펴봤는데 역시 마찬가지였다. 예를 들어 효모의 단백질과 단백질이 결합하는 모습도 복수의 허브가 있는 항공망형 네트워크였다. 인터넷이든, 생명과학이든 간에 보편적으로 항공망 구조가 많이 발견되는 이유는 네트워크의 빈익빈부익부 현상 때문이다. 우리가 친구를 사귀고 싶다고 가정하자. 누구에게 붙어서 친구가 될까?


이미 친구가 많은 사람에게 달라붙을 가능성이 높다. 물론, 어쩌다가 친구가 하나도 없는 사람과도 친구가 될 수 있을 것이다. 그런데 그럴 확률은 상당히 적다. 어떤 사람과 친구가 될 것인가는 교묘하게도 상대가 현재 갖고 있는 친구 수에 비례한다. 기존에 친구가 50명 있는 사람과 친구가 될 확률이 기존에 친구가 1명밖에 없는 사람과 친구가 될 확률보다 50배 크다. 이렇게 빈익빈부익부가 계속되다 보면 자연스럽게 허브들이 있는 항공망 구조가 이뤄지게 된다.  

 

이 원리를 이용한 것이친구 치료라는 개념이다. 전국에 전염병이 퍼졌다고 가정하자. 사람들에게 백신을 나눠줘야 하는데 갖고 있는 백신의 양은 정해져 있다. 이럴 경우 사람들과의 접촉이 많은허브’, 즉 마당발인 사람에게 백신을 주사하는 것이 가장 효율적일 것이다. 문제는 누가 허브인지를 어떻게 찾아내느냐다.

 

사람들에게당신이 아는 사람 중에서 가장 인기가 많은 사람에게 이 백신을 전해주세요라고 말하면 될 것 같지만 굳이 그렇게 할 필요가 없다. 그냥 아무나 붙잡고당신 친구에게 주세요라고만 말해도 된다. 그렇게만 얘기해도 허브는 아무나의 친구일 확률이 높기 때문에 허브에 해당하는 사람에게 백신이 전해질 확률이 상당히 높다.  

 

기업들 역시 제품 홍보와 마케팅에 이친구 치료방법을 이용할 수 있다. 사은품을 하나씩 나눠주면 홍보효과가 떨어진다. 그걸 받는 사람이 허브인지 아닌지를 확인할 수 없기 때문이다. 하지만 사은품을 두 개씩 나눠주면서하나는 당신 친구에게 나눠 주세요라고 말하면 허브에 해당하는 사람에게 두 번째 사은품이 전해질 확률이 매우 높다.

 

포럼과 세미나 등의 유료 행사를 할 때도 신청자 혼자 오게 하는 것보다는 친구도 한 명 데려오게 하는 게 홍보 효과가 훨씬 좋다. 신청자 본인이 허브일 확률보다 신청자의 친구가 허브일 확률이 높기 때문이다. , 이런 방법엔 역효과가 있을 수 있다. 제품이 좋을 때는친구 치료법의 홍보효과가 좋지만 제품이 나쁘다면 그만큼 악소문도 훨씬 빨리 퍼지게 될 것이다.  

 

 

기업에서 항공망형 네트워크 조직으로 성공한 사례가 있나.

 

책에도 썼지만 HP의 사례가 대표적이다. 이 회사에서 직원들의 e메일 네트워크를 분석해 그걸 바탕으로 부서를 재배치한 사례가 있다. 영업부, 기획부 등으로 나눠져 있는 회사에서 직원들끼리 주고받는 e메일의 맨 위 두 줄, ‘to’ ‘from’ 주소줄만 가지고 분석을 한 다음, 부서를 다 무시하고 가장 많이 커뮤니케이션을 하는 사람들끼리 모일 수 있도록 자리를 재배치했더니 업무 효율이 올라갔다.  

 

 

e메일로 이미 많이 소통하고 있는데 굳이 자리까지 함께 앉힐 필요가 있나.

 

그런 얘기가 아니라 애초에 업무 부서별로 자리를 정해주는 것이 그다지 효율적이지 않고, 업무 교류가 많은 사람들을 부서가 다르다는 이유로 굳이 따로 떼어놓을 필요가 없다는 얘기다. 대부분의 조직들이 산업혁명 이후 전문화를 하면서 CEO부터 부서가 너무 세분화됐다.


파고파고 파고드니 더 이상 전문화를 할 수가 없다. 한계효용 때문에 부서를 더 만들어도 더 이상 나오는 게 없다. 그런데 이젠 융합의 시대다. 어떤 일을, 어떤 부서에서 해야 할지 애매한 경우가 많아지고 있다. 이런 상황에서 부서별로 칸막이를 나누는 문화는 좋지 않다. 적당한 구조와 유연한 연결성으로 이뤄진 항공망처럼 생긴 조직이 성과가 좋을 것이다. 여기서 중요한 점은 한 번 재조직하고 마는 게 아니라 계속 모니터링하면서 그에 맞게 조직을 고쳐나가는 것이다.

 

e메일이든 뭐든 추이를 지켜보면서 업데이트할 수 있다는 게 네트워크 분석의 장점이다.   카카오톡을 만든 카카오도 그런 사례다. 이 회사는 조직이 아주 유연한 걸로 유명하다. 조직개편을 엄청나게 자주 한다. 새로운 일이나 새로운 문제가 생기면 바로바로 팀을 꾸리고 또 해결되면 바로 재조직한다. 이것이 가능한 이유는 조직원들끼리 직급 없이 영문 이름으로만 불러주기 때문이라고 한다. 유연한 연결성을 만들어주는 것이다.  

 

책에 싸이월드 이용자 2200만 명의 ‘1네트워크를 분석한 결과가 있다. 다른 기업들의 분석 요청은 없었는가원래 싸이월드 1촌은 비공개라서 데이터를 얻기 힘들었지만 비밀엄수 서약을 하고 이름은 다 지운 데이터를 받았다. 데이터를 받아서 우리야 논문도 쓰고 좋았는데 회사 측에는 별로 긍정적이지 않은 결과들이 나왔다. 2005, 2006년경이었는데 벌써 다운힐(downhill) 조짐이 보이고 있었다. 네트워크가 성장하지 않고 가장 액티브한 유저들의 활동량이 줄어들고 있었다.

 

  다른 기업들에서 분석 요청들이 오긴 했지만 물리학자 입장에선 기업 컨설팅은 논문 쓰는 데 별 도움이 되지 않는다. 이젠 컨설팅 전문업체들이 이런 쪽에서 아주 잘하고 있기 때문에 내가 해야 할 필요는 없는 것 같다. 설령 한다 해도 기업 내부 사정을 잘 모르면 잘할 수도 없다. 또 페이스북이나 구글 같은 웬만한 회사는 이미 다 자체적으로 네트워크를 분석하는 조직들을 잘 갖추고 있다.  

 

 

책 제목처럼 구글은 정말 신()처럼 모든 것을 알고 있나.

 

책에서 썼듯이 구글은 검색어 분석을 통해서 언제 어디서 독감이 유행할 것이라는 걸 예측할 수 있다. 다만 그 검색어가 무엇인지는 발표하지 않는다. 검색 결과가 왜곡될 수 있기 때문이다. 그 검색어의 뜻이 독감과 관련된 것인지 아닌지는 상관이 없다.

 

지금도 누구나 구글 코릴레이트(http://www.google.com/trends/correlate) 서비스를 이용하면 해볼 수 있다. 어떤 시계열 데이터를 집어넣으면 그 데이터에 가장 잘 맞는 검색어가 무엇인지를 찾아서 보여준다.   또 하나의 검색어와 동일한 패턴으로 움직이는 검색어도 찾아준다. 그런 정도의 계산능력과 자료는 얼마든지 갖고 있는 회사가 구글이다. 그래서 무서운 거다. 중요한 이슈들에 대해서 구글이 원하기만 하면 그 결과를 다 뽑아낼 수 있다고 본다.  

 

검색어라는 건 사실 무척 중요하다. 사람들의 생각을 가장 정확하게 보여주는 게 검색어다. 사람들은 검색할 때 거짓말을 하지 않는다. 검색은 진짜 필요할 때만 한다. ‘오늘은 내가 구글을 골탕 먹여야 겠다는 생각으로 특정 검색어를 넣는 사람은 없다. 또 실시간이다. ‘궁금하지만 참았다가 내일 검색해야지라고 생각하는 사람도 없다.

 

그 장소, 그 시간, 그 상황에 궁금한 걸 검색하기 때문에 사람들의 생각을 가장 정확하게 반영하고 있다. 그래서 무궁무진한 가능성을 가진 정보가 되는 거다.   사실 빅데이터의 프라이버시도 이슈가 되고 있지만 프라이버시 이슈를 떠나서 이 검색어라는 게 과연 구글의 소유물인지도 애매하다.

 

우리가 검색 서비스를 이용하는 대가로 지불한다고는 하지만 구글이 이 정보를 가지고 할 수 있는 것이 너무 많다. 독감 환자 예측사례만 봐도 그렇다. 예를 들어 갑자기 LA의 부동산 관련 검색어가 많이 올라온다면 미리 그 지역에 부동산투자를 해서 돈을 벌 수 있다. 시카고에서 코카콜라 검색어가 올라오면 코카콜라를 가져다 그 지역에 팔면 된다. 사람들이 지금 뭘 하는지를 정확하게 알 수 있다. 그 데이터의 사용을 우리가 어디까지 동의했으며 구글이 그걸 어디까지 써도 되느냐가 윤리적인 이슈가 된다.  

 

 

현재 진행 중인 연구는?

 

통계물리의 연구대상은 무궁무진하다. 최근엔 예술작품 분석도 하고 있다. 세계적인 명화들을 사진으로 찍어 놓은 데이터베이스들이 많이 있는데 이것을 분석해서 시대별로 색상이나 화법 등에 어떤 변화가 있었는지, 혹시 위작은 아닌지 등을 통계적으로 검증하는 것이다. 색상의 사용빈도나 화가의 기법들을 수학적인 데이터로 변환한 다음 이를 시대별로 분석한다. 마찬가지로 음악도 분석하면 시대별로 어떤 특정한 패턴을 발견할 수 있다.

 

이 논문은 지금 저널에서 심사 중이다.   근래 하고 있는 또 다른 연구로는 <조선왕조실록> 분석이 있다. <조선왕조실록>이 최근 디지털화돼 웹에 공개됐다. 이걸 분석하면 왕조별로 등장하는 수많은 인물들이 어떻게 연결이 되는지를 알 수 있다. 누가 누구와 얘기하고 또 어떤 인터랙션을 했는지 다 기록돼 있기 때문이다. 인물별로 분석할 수도 있고 직책과 부서별로 분석도 가능하다.

 

권력이 어떻게 움직이고 변화했는지, 어떤 기관으로 권력이 움직였는지 등을 네트워크로 그림을 그려볼 수 있다. 물론 이미 역사적으로 알려진 사실도 있으니 통계물리학적 분석 결과를 거기에 맞춰볼 수도 있고, 또 아직까지 누구도 보지 못했던 패턴을 발견할 수도 있을 것이다.

 

조진서 기자 cjs@donga.com

155(2014.06.18)