유효성(validity)
데이터 분석에서 오류가 많이 나는 이유 :
트위터 분석을 한다 했을 때 트위터가 정말 전체 사람들의 의견을 대표하는지, 트위트(글 업로드)가 트위터 유저들의 생각을 대표하는건지…생각해볼 필요가 있다. 때로는 일부 사람들의 생각을 알아도 충분한 경우도 있다. 제조업 회사에서 상품을 개발했는데 불만의 목소리를 듣고 싶을 때 일부 사람들의 의견이라도 많은 도움이 될 것이다.
데이터를 분석할 때 어떤 속성(attribute)을 선택해야 할까?
1. 보통 뭐가 사용 가능하냐에 따른 제한을 많이 받음
2. 추가적 속성이 구입 및 수집될 수 있음
3. 계속해서 놓친 속성은 없나 살펴보기
고려하지 말아야 할 데이터
- 인종과 관련된 모든 데이터
만약 유명인에게 자사 상품을 홍보하는 트윗을 남겨달라 부탁했을 경우 생기는 수익은 어떻게 해야 할까? 측정 및 계산하는 방법이 여러 가지 있음. ex) 1. 유명인의 팔로워수 15만, 그 결과 1200명이 회사 사이트 방문, $900 수익 - 팔로워수 1명당 $0.001으로 계산해서 $15,000 / 2. 방문한 고객 수 1명당 $1로 계산하여 $1200, 수익의 20% margin으로 계산해서 $180
데이터 처리 과정에서의 오류: 특히 제 3자에 의해 제공되는 데이터의 경우 정확한지 입증하려면 데이터 소스가 권위가 있는 기관의 것인지, 완벽한지, 시기 적절한지 등을 확인해봐야 한다. 또한, 데이터 대상이 이 데이터들에 접근할 수 있는지도 봐야 한다.(데이터를 깨끗하게 만드는 가장 좋은 방법) 마지막으로 책임성이 있는지 확인해야 한다. 얼마나 많은 실수나 의도하지 않은 결과가 탐지되었고 수정되었는지 알아보아야 한다.
ex) acxiom는 마케팅 회사에 데이터를 판매하는 회사이다. 몇 가지 데이터는 그 주인인 사용자들에게 직접 보여주고 수정하라고 권한을 부여한다. 즉, 30세 미혼 여성이 장난으로 기혼 여성에 자식까지 있다고 거짓말 칠 수도 있다.(물론 본인의 선택에 의한 결과이다.) 하지만 이 장난은 결국 자기에게 돌아오게 되어 있다. 마케팅 회사에서 오는 광고가 거짓된 정보에 기초해있기 때문이다. 그렇다고 해서 모든 데이터를 사용자가 알아서 수정하라고 하는 것은 아니다.(credit data 등)
데이터 모델이 부정확한 이유
1. 모델 구조 결함
2. 잘못된 추정(보외법) - linear regression 그래프를 보고 거기에만 의존해서 판단할 경우, 그러나 세상일은 항상 직선일 수가 없음
3. 잘못된 특징 선택 - 키가 큰 사람이 수염이 많이 자란다 → 보통 남자만 생각하게 되서 얼핏보기에 맞다고 판단할 수 있는데 여자의 경우도 생각해줘야 함
4. 생태적 오진(ecological fallacy) - 그룹의 특징을 분석하고 이 결과를 개인에게 부여 ex) 높은 수입의 사람들이 낮은 범죄율을 가진다 = 부자인 개인이 범죄자가 될 확률이 적다?
5. 심슨의 역설 - 각각 보면 여자가 남자보다 합격률이 높은데 전체를 놓고 보면 남자 합격률이 높음. 지원한 사람 수 자체가 다르기 때문에 발생되는 오류
케이스 스터디 : 알고리즘과 인종
한 흑인 교수가 자신의 이름을 구글에 쳤더니 처음 나오는 광고에 arrest 즉, 체포라는 단어가 이름 옆에 위치하고 있었다. 동료 교수가 과거에 무슨 잘못을 저질렀냐며 농담으로 물었고 흑인 교수는 전혀 없다고, 연구 끝에 흑인 이름이 들어가 있어서 그런 것 같다는 결론을 내렸다. 흑인 교수는 처음에 어떻게 컴퓨터가 partial 하냐며 이해하지 못했으나 120,000개의 광고 프로젝트를 조사한 결과 개발자 역시 의도가 있던 것이 아니라 컴퓨터 스스로 인식해낸 것이었다.
케이스 스터디 : 알고리즘과 회사
회사에서 인공지능 알고리즘을 사용하여 면접을 보고 직원을 평가하고 있다. 시간을 획기적으로 줄여주고 직군에 더 잘 맞는 인재를 채용할 수 있는 장점을 가지고 있긴 하다. 하지만 상대적으로 회사에는 남자 직원들이 많이 남아있다. 여자에 대한 정보는 남자보다 훨씬 부족하고 작업 수행 능력도 항상 뒤쳐진다고 인식 및 기록되어 왔기 때문에 알고리즘이 이런 사항들을 학습한다면 차별이 확대될 것이다.
케이스 스터디 : GermanWings Crash
독일의 한 조종사가 심각한 우울증을 앓고 있다가 150명을 태운 비행기를 조종하여 일부러 부딪혀 자살한 사건이다. 역설적이게도 개인의 사생활을 철저히 지키는 독일의 특징 때문에 벌어진 일이다. 정신적인 문제가 있음을 알고 있으면서도 병원에서는 항공 회사에 알리지 않았다. 당연히 항공 회사는 이 사실을 자세히 몰랐고 평소와 같이 조종을 하게 했다가 벌어진 일이다. 개인의 사생활을 지키려는 독일의 문화는 굉장히 좋지만 정신적 문제를 테스트할 수 있는 방안을 따로 마련할 필요가 있었다. 조종사가 술에 취했는지 음주 측정기를 통해 측정하고 정신적 문제가 없는지 설문조사나 대화를 통해 알아내야 한다. 이는 개인의 사생활을 건들지 않으면서도 안전성을 확보하는 현명한 방법이다.
'문돌이 존버 > 데이터사이언스 윤리학' 카테고리의 다른 글
알고리즘의 사회적 결과, feat.코세라 데이터 사이언스 윤리학 (0) | 2020.02.09 |
---|---|
알고리즘 공정성, feat.코세라 데이터 사이언스 윤리학 (0) | 2020.02.08 |
익명성, feat.코세라 데이터 사이언스 윤리학 (0) | 2020.02.06 |
사생활, feat.코세라 데이터 사이언스 윤리학 (0) | 2020.02.05 |
데이터 소유권, feat.코세라 데이터 사이언스 윤리학 (0) | 2020.02.04 |