본문 바로가기

문돌이 존버/데이터사이언스 윤리학

익명성, feat.코세라 데이터 사이언스 윤리학

반응형

익명성

<출처: pixabay>

웹사이트를 이용하는 우리는 사실상 인터넷에 우리에 대한 정보를 뿌리고 있는 것이다. 우리가 무슨 검색어를 입력했고 몇 번 특정 웹사이트에 접속했고 등 모든 정보가 남는다. 또한, 회원가입을 하거나 예약을 할 때에도 카드 결제 정보, 휴대폰 인증 등 더 많은 내 데이터를 필요로 한다. 우리는 이런 것들에 익숙해진지라 주의가 비교적 적은 편이다.  

de-identification(어떤 데이터에서 개인 사용자에 대해서 알 수 있을 만한 정보를 빼자!)와 re-identification:

넷플릭스는 영화 추천 알고리즘 경진 대회를 열어서 수익 창출 효과를 높이는 팀에게 상을 주었다. 이에 사용자들의 기본 정보, 즉 id, 시청한 날짜, 시청한 영화 제목 등만 제공하였다. 개인 사용자에 대한 정보는 일체 공개하지 않았다.(de-identification)

사실, 사용자들은 넷플릭스에서 숫자로 평점을 매기고 IMDb 라는 영화 평론 사이트에 리뷰를 남기는데 이 때 개인 정보가 일정 부분 노출된다(re-identification). 연구자들은 넷플릭스와 IMDb를 연동하여 사용자에 대한 데이터를 얻을 수 있다. 예를 들어, 내가 넷플릭스에서 마블 영화를 보고 IMDb에 평을 남기는지 안남기는지 확인할 수 있는 것이다. 평을 남기는데 대부분 좋은 평이라면 이 사용자는 마블 영화를 즐기는구나, 혹독한 평이라면 이 사용자는 마블 영화를 계속 보긴 해도 좋아하진 않는구나를 발견할 수 있는 것이다. 하지만 넷플릭스는 이러한 정보 공유로 고소를 당했다. 한 레즈비언이 본인이 커밍아웃을 하기 전 넷플릭스 때문에 강제 공개되었다는 것이다. 넷플릭스를 통해 동성애자 영화를 자주 보는데 IMDb에는 평을 남기지 않고 자주 보지 않는 블록버스터 영화에 대한 평을 남겼기 때문에 이를 자동으로 그녀가 숨기려는구나 하고 분석해냈다는 것이다.

평을 남기는 것은 개인의 선택이고 공개되는 것에 동의를 한 것이므로 이를 활용하는 것에 대해 아무런 잘못이 없다. 그러나 다른 사이트들 간의 정보 공유는 제한이 있다. 한 사람에 대한 정보라도 다른 기관들끼리 공유가 금지되기 때문에 기술을 제대로 사용하지 못하고 있다.  

de-identification의 한계:

내 친구나 가족이 나를 해칠 수도 있다. 어느 파티에 참석했는데 나는 다른 사람들에게 말 하려 하지 않았으나 내 친구가 찍은 사진에 나도 모르게 찍혔을 경우 반강제적 공개, 내 DNA를 검사하고 공개했는데 DNA 정보는 가족들과 연관이 깊으니 가족들 입장에선 반공개이다. 공유되는 정보가 있으면 다른 사람이 그 정보에 대해선 정확히 모르더라도 대충 파악이 가능하기 때문에 충분히 위험하다. 

익명성 보장은 사실상 불가능하다. 그룹, 개체의 다양성도 외부 데이터와 합쳐지면서 완전한 공개는 아니더라도 반공개(semi)될 가능성이 높다. 임의적(random) 작은 변화라고 해서 익명성이 보장되지 않는다. 딱 한 번만 그렇게 했을 때만 가능성이 있지, 자꾸 쌓여 데이터가 되어 분석할 기회를 제공하면 불가능하다. 데이터 간 집합, 종합을 이루는 현상은 더 이상 막을 수 없다. 이미지 혹은 영상을 통한 안면인식 또한 피해갈 수 없는 현실이다. 

익명성을 보장하기 위해선 가장 간단한 방법은 데이터셋을 아예 공개하지 않는 것이다. 하지만 이 또한 사실상 불가능하다. 데이터 공개를 필요로 하는 분야가 너무 많고 그로 인해 얻을 수 있는 도움 또한 상당하기 때문이다. 

방법은 확실한 규제이다. 민감하거나 아무에게나 공개되어서는 안 될 데이터에 대한 접근을 허용하는 라이센스를 마련하는 것이다. 또한, 전문적인 기준을 마련하여 내 데이터에 접근한 사람 혹은 기관이 다른 곳에 공개하지 않도록 해야 한다. 

케이스 스터디 : 카드 사용 내역서

<출처: pixabay>

신용카드로 무슨 물건을, 어디에, 얼마나 썻는지 공개한다면 다른 사람들이 나에 대한 정보를 알 수 있을까? 내가 담배를 피우는데 어떤 종류의 담배를 피우는지, 독한 시가를 핀다면 내가 담배에 중독이 되었다는 것을 알 수 있다. 혹은 내가 특정 종교 단체에 기부를 하고 있다는 사실을 알면 내가 신앙심을 가지고 있음을 알 수 있다. 즉, 카드 사용 내역서는 나를 직접적으로 소개하고 있지 않지만 간접적으로 파악 가능하다. 요즘 거의 모든 회사, 기관들은 이런 위험성을 인지하고 있어 설령 나에 대한 동일한 정보를 가지고 있음에도 서로 간의 공유를 하지 않는다. 

 

728x90
반응형