문돌이 존버/데이터사이언스 윤리학
2020. 2. 7.
유효성, feat.코세라 데이터 사이언스 윤리학
유효성(validity) 데이터 분석에서 오류가 많이 나는 이유 : 트위터 분석을 한다 했을 때 트위터가 정말 전체 사람들의 의견을 대표하는지, 트위트(글 업로드)가 트위터 유저들의 생각을 대표하는건지…생각해볼 필요가 있다. 때로는 일부 사람들의 생각을 알아도 충분한 경우도 있다. 제조업 회사에서 상품을 개발했는데 불만의 목소리를 듣고 싶을 때 일부 사람들의 의견이라도 많은 도움이 될 것이다. 데이터를 분석할 때 어떤 속성(attribute)을 선택해야 할까? 1. 보통 뭐가 사용 가능하냐에 따른 제한을 많이 받음 2. 추가적 속성이 구입 및 수집될 수 있음 3. 계속해서 놓친 속성은 없나 살펴보기 고려하지 말아야 할 데이터 - 인종과 관련된 모든 데이터 만약 유명인에게 자사 상품을 홍보하는 트윗을 남겨..