본문 바로가기

문돌이 존버/데이터사이언스 윤리학

알고리즘 공정성, feat.코세라 데이터 사이언스 윤리학

반응형

알고리즘 공정성(Algorithm fairness)

<출처: MenschSein mit Algorithmen>

- 알고리즘도 편향이 발생할까?

- 편향 없는 알고리즘을 만들 수 있을까?

- 과거 데이터가 미래 데이터를 대표할 수 있을까?

여성이 10%밖에 되지 않는 회사에서 만든 면접 인공지능 알고리즘은 여성 지원자를 더 낮게 평가할 것이다. 

좋은 데이터에서 발생하는 나쁜 분석:

- 상관 변수(correlated attributes)

- 정확한 분석이나 잘못된 방향으로 결론을 내림

- P-Hacking

인종차별:

<출처: pixabay>

미국에선 인종차별을 법적으로 금지하려는 노력이 많다. 예를 들어, 대학 입학과정에서 인종을 알 수 있는 정보는 절대 묻지 않기로 되어있다. 빅데이터가 이러한 차별이 가능한 기술을 제공할 수 있다는 위험이 크다는 건 사실이다. 하지만 동시에 이런 차별을 감지하고 다루는 기술 역시 제공할 수 있다. 

의도치 않는 차별(Unintentional discrimination)은 사실 피하기 어렵다. 2015년 Carnegie Mellon 대학에서 조사한 바에 따르면, 고액 연봉을 받는 직업을 홍보하는 광고에 남자가 여자보다 훨씬 많이 등장했다. 이는 알고리즘 특성상 최근의 정보를 참고하기 때문에 의도적인 것은 아니다. 다만, 많은 남자들이 고액 연봉의 직업을 많이 얻었다는 것을 의미할 뿐이다. 

차별의 정도는 개인마다 상이하다. 절대적 기준으로 한 행동을 '차별이다, 차별이 아니다' 라고 판단하는 것은 불가능하다. 

정확한 데이터이지만 잘못된 결과를 낳을 수도 있다. 평균 평점이 3.2로 동일하지만 대부분 평점이 3점과 4점인 호텔 A와 대부분 평점이 1점과 5점이 호텔 B 중 어디를 선택하겠는가? 평점 5를 준 사람의 특성을 안다면 아마도 호텔 B를 선택할 수도 있다. 즉 나에게 더 맞는 호텔을 정하기 위해선 평균 평점 3.2만 봐서는 안되고 다른 부가적 정보를 찾아볼 필요가 있다.

또한, 리뷰가 2개에 평균 평점이 4.5인 호텔 A가 있고 리뷰가 200개에 평균 평점이 4.4인 호텔 B가 있다. 아마도 평균 평점은 A보다 낮지만 더 많은 리뷰를 가지고 있는 호텔 B를 선택할 것이다. 그렇다면 다음 상황에서는 어느 호텔을 선택할 것인가? 호텔 A는 리뷰 10개에 평균 평점 4.5이고 호텔 B는 리뷰 500개에 평균 평점 4.4이다. 게다가 호텔 A는 오직 5개의 방만 있고 호텔 B는 500개의 방이 있다. 아마 규모가 작은 호텔이라 손님이 많이 오지 않았을 것이라 이해하고 10명의 리뷰면 충분히 믿을만 하다고 느낄 것이다. 이렇게 추가적 정보를 알게 되면 우리는 다르게 생각하고 다른 결정을 내리게 된다.

세상에는 오른손잡이 사람들 아니면 왼손잡이 사람들만 있다고 하자. 오른손잡이가 평균적으로 많다고 한다면 상품 디자인은 보통 오른손잡이를 겨냥하여 고안될 것이다. 알고리즘 역시 평균적으로 많은 사람들의 특성에 맞춰지게 되어있다. 진짜 좋은 사람과 부족한 사람을 구분하는 데에 오류가 발생한다. 이에 소수의 사람들은 무시될 때가 많다. 

정확한 실험 혹은 관찰 하에 나온 데이터라 하더라도 표면적 수치만 보고 간단하게 해석해서는 안된다. 어떻게 그런 수치가 나왔는지 과정 자체를 자세히 들여다 볼 필요가 있다. 

P-Hacking은 통계적 방법 중 하나인데 복잡한 현실 세계를 확률이라는 공식으로 풀어내려다 보니 자연스럽게 생기는 오류이다. 현실 세계의 데이터는 노이즈(noise)가 많이 섞여 있기 때문에 순수한 데이터만을 얻기 힘들다. 우리가 스스로 그 노이즈를 얼마나 잘 없애는가가 관건이다. 

보통 가설은 실제 결과를 보기 전에 이미 만들어 놓아야 하는 것이지, 결과를 보고 그에 맞도록 고쳐서 가설이 맞았다고 주장하면 안된다. 하지만 데이터 과학 분야에서는 보통 데이터를 먼저 접하지, 데이터를 접하기 전에는 가설을 만들지는 않는다. 따라서 데이터 탐구가 더욱 필요한 것이다. 데이터를 보고 세운 가설을 계속해서 수정해야 하는 데이터 과학 분야의 특성은 통계학적 기준으로 보면 말도 안 되는 것이지만 이 문제를 피하기 위해 가설 전용 데이터(training data)와 시험용 데이터(test data)를 구분짓는다. 충분한 데이터가 있다면 가설과 시험을 동시에 할 수 있는 것이다. 

 

728x90
반응형