데이터는 알고있다. 빅데이터가 만드는 세상
빅토르 마이어 쇤베르거 저, 21세기 북스
2022-11-30, 1회독
1장. <현재>
●독감바이러스 -> 구글의 예측 프로그램(검색어 기반)
●빅데이터 : 정보를 새로운 방식으로 활용, 유용한 통찰, 가치있는 재화, 서비스 만드는 능력
ex) 페어케스트(오헨 에치오니, 항공권 비교 서비스) -> 경제권력을 소비자에게, 경제적 가치의 원천
●빅데이터 : 큰 규모로 작은 규모에서 볼 수 없던 통찰, 새로운 가치 추출, 발견
●혁명 -> 데이터와 그것을 활용하는 방식
●빅데이터의 핵심 : 예측 != 인공지능, 머신러닝의 접근 , 수학 + 대량데이터 기반 확률 추론,
미시적 차원의 정밀성 < 거시적 차원의 통찰
2장. <많아진 데이터>
●데이터 처리 능력 부족(과거) -> 걸러내 최소한의 양만 남김 -> 검토 용이
ex) 1886년 토지대장 사례 : 영국의 기록장부는 비용과 시간이 많이 필요, 게다가 근사치에 불과(census)
인구조사의 어려움 -> 새로운 방법 고안 : 랜덤 샘플링
●랜덤샘플링 : 무작위성 확보의 어려움 발생 가능 (ex. 유선 여론 조사) , 정보처리에 제약이 있던 시대의 산물, 세부사항& 세분화된 개체 & 하위 그룹 살펴볼 가능성 떨어짐.
●현대 : 랜덤샘플링 -> 전체데이터 수집의 방향으로 전환
●N1 = 1all (1번 집합 = 모든 원소 포함하는 하나뿐인 전체 집합)
●전체 데이터 -> 세부사항 + 연결점 탐색가능, 이상이 있는 부분 vs 다량의 정상거래
●데이터 양 반드시 클 필요는 없다.
ex) 네트워크 이론, 알버트 라즐로 바바라시 : 전체데이터 분석으로 결과
3장. <들쭉날쭉 데이터,Messy>
●양이 증가하면 -> 정밀함은 떨어짐. 단 허융가능한 오류의 기준 낮춰 -> 데이터의 양 ▲ -> 질보다 양!
●Messy : 데이터 처리 전 cleaning 거쳐야 함
●빈도수 > 정밀성 & 양 > 정확성 : 어류 막는 것보다 용인하는 것이 더 좋은 결과 창출
ex) 자연어처리(NLP) : 데이터의 양 늘렸을 때 성과 증가, 구글의 1조개 단어
●들쭉날쭉함 : 불완전, 온갖종류의 오류를 포함한 데이터 -> 하지만 유용
ex) 체리포인트 정유공장 -> 질보다 양의 사례
●빅데이터를 불완전하기에 들쭉날쭉 발생 -> 더 많은 데이터 수집 > 정확도 투자
ex) SNS 팔로워 숫자표기 방식의 변화 (K)
●데이터 관리의 변화 : 인덱스(레이블링) -> 비표준화, 즉흥적(태그)
ex) '단일한 버전의 진실' , 'nosql'
●하둡 : 데이터 작은 덩어리들로 쪼개어 다른 기계들로 나눠 보낸다. -> 그 자리에서 분석 (양이 방대하므로)
ex) 제스트파이낸스(Douglas Merill)
●트레이드오프(tradeoff)
●종합적 관점 : 정확성 대신 애매모호한 방법
4장. <인과성&상관성>
ex) 아마존 닷컴 초기 : 고객데이터 수집 후 전통적 방식으로 처리(샘플링, 유사성찾기)
새 방법 : 아이템간 협업필터링(collaborative filtering) -> Why(X), What(O)
●상관성 : 두 데이터 값 사이의 통계적 관련성 수량화 ( 프랜시스 골턴 고안 )
ex) 월마트, 신용정보회사, 에퀴팩스, 보험사 등
●예측 : 결과, not 이유
ex) 알고리즘,UPS, 헬스케어
●인과성 : 1. 인과적 연관 찾고자 하는 직관적 욕구(인과적 연결성을 찾는 빠른 사고 방식)
2. 느린사고, 시간 많이 요구, 통제된 실험 환경 요구
●상관성 > 인과성, 상관성은 좋은 툴이 된다(유용, 효용)
ex) 맨해튼 맨홀 예측
5장. <데이터화>
ex) 메슈폰타인 모리의 행해도 사례 (가치 없는 자료에서 데이터 발굴)
●세상의 수량화 ( 정보기록 -> 보관 -> 숫자체계로 )
●데이터화 vs 디지털화 : 다른 개념
ex) 아마존의 텍스트 디지털화 vs 구글의 데이터화 된 텍스트
●공간 데이터화(GPS,위치정보 수집) -> 새로운 용도 or 새로운 가치 창조
●소통 데이터화(SNS,생각-기분-소통)
●센서, 사물 등 모든것(everything, IoE)으로 데이터 수집
6장. <가치>
●데이터의 가치 -> 모든 데이터, 이상, 센서. '비경합재' 가치 (비경합재 : 한 사람의 사용이 다른 사람의 사용에 방해X)
●데이터 재새용가치 : 1차적 용도 -> 2차적 용도, 2차적 용도에서 더 높은 가치 창출 가능
●데이터 재조합기회 : 총계 > 개별요소, 총계에 집중하면 -> 가치 증가한다.
●확장가능한 설계 : 데이터 설계 단계 부터 여러 목적에 사용할 수 있도록 반영
●데이터 감가상각 : 데이터 효용 -> 시간이 증가며 효용 감소. 생산성 있는 데이터 사용은 중요 + 가치상실 데이터에서 추려내는 과정 중요
●데이터 잔해가치 : 숨겨진 형식으로 재사용, 경쟁우위 기회
ex) 모자 데이터 사례, 전자책 습관+ 특정 단락 등
●오픈 데이터 가치 : 정부 부유 데이터는 가치가 높다.
7장. <영향>
●데이터 비즈니스 기업 : 1. 데이터 보유기업 2. 기술 보유 기업 3. 아이디어+빅데이터 사고방식
●빅데이터 가치사슬 : 정보(데이터) - 데이터 전문가(기술) - 벡데이터 사고방식 기업&개인(기회포착)
●기술 아웃소싱 : 기술이 가치의 원천만은 아님, 기술가치는 시간이 지나면서 떨어진다. 아이디어도 중요
●데이터의 가치 증가하게 될 미래 (데이터 중개인)
●원자재로써 데이터 : 거래 발생 가능
●전문가 종말 -> 기존의 전문가 < 통계전문가, 데이터전문가 -> 데이터 기반, 기초 방식에 구애받지 않음. 편견X, 상관성 의존은 증가
8장. <리스크>
●사생활, 개인정보 문제 -> 개인데이터 수집,저장, 재사용이 증가하며 발생.
●개인정보 수집과 활용 vs 인간의 자유의지, 공정, 정의
●정보분석 결과 오용 : 큰 문제 발생 가능 (e.g. 정치적)
●사생활 마비 -> 기업들의 수집 데이터 -> 누구를 가리키는지 쉽게 추적가능, 위험의 성격변화(수집목적 != 2차 용도), 익명화 불가(대량 데이터에서는 무효하다.)
●확률&처벌 : 개인의 행동 예측, 선택권이 사라질 수 있다 + 선택의 기회박탈 -> 책임면제 모순도 발생
ex)범죄 감시 예측
ex)맥나마라와 베트남전쟁 사례
9장. <통제>
●빅데이터 이면 해결 방법 -> 이용자들의 책임있는 행동, 자세
●동의에서 책임으로 :
데이터 이용자가 자신의 일에 대해 져야하는 책임에 초점, 잠재적 해악 막기위한 다양한 제도 포괄
공식적 빅데이터 용도 평가 -> 결과 시행 -> 2차 용도에 대한 문제 감소하게 될 것
책임 -> 대중보다 데이터 이용자가 목적을 잘 알고 있다.
차등적 사생활 : 정보를 의도적으로 흐리게(근사치만 제공)
●사람 vs 예측 : 1. 개방성(영향을 준 데이터, 알고리즘 공개), 2.인증(건전,유효 알고리즘 보장), 3.반증가능성(예측이 잘못되었다는 것 증명할 방법 명시), 4. 인간행위의 원칙보장(데이터 독재 막기위해)
●블랙박스 깨기 -> 알고리즘 복잡 -> 이해어려움, 책임X, 추적가능성,X 확신X = 블랙박스, 모니터링, 투평성 필요
●알고리즈미스트(Algorithmist) : 외부 , 내부에서 활동
●데이터 독점 방지
10장. <다음>
●독감바이러스 -> 구글의 예측 프로그램(검색어 기반)
●빅데이터 : 정보를 새로운 방식으로 활용, 유용한 통찰, 가치있는 재화, 서비스 만드는 능력
ex) 페어케스트(오헨 에치오니, 항공권 비교 서비스) -> 경제권력을 소비자에게, 경제적 가치의 원천
●빅데이터 : 큰 규모로 작은 규모에서 볼 수 없던 통찰, 새로운 가치 추출, 발견
●혁명 -> 데이터와 그것을 활용하는 방식
●빅데이터의 핵심 : 예측 != 인공지능, 머신러닝의 접근 , 수학 + 대량데이터 기반 확률 추론,
미시적 차원의 정밀성 < 거시적 차원의 통찰
2장. <많아진 데이터>
●데이터 처리 능력 부족(과거) -> 걸러내 최소한의 양만 남김 -> 검토 용이
ex) 1886년 토지대장 사례 : 영국의 기록장부는 비용과 시간이 많이 필요, 게다가 근사치에 불과(census)
인구조사의 어려움 -> 새로운 방법 고안 : 랜덤 샘플링
●랜덤샘플링 : 무작위성 확보의 어려움 발생 가능 (ex. 유선 여론 조사) , 정보처리에 제약이 있던 시대의 산물, 세부사항& 세분화된 개체 & 하위 그룹 살펴볼 가능성 떨어짐.
●현대 : 랜덤샘플링 -> 전체데이터 수집의 방향으로 전환
●N1 = 1all (1번 집합 = 모든 원소 포함하는 하나뿐인 전체 집합)
●전체 데이터 -> 세부사항 + 연결점 탐색가능, 이상이 있는 부분 vs 다량의 정상거래
●데이터 양 반드시 클 필요는 없다.
ex) 네트워크 이론, 알버트 라즐로 바바라시 : 전체데이터 분석으로 결과
3장. <들쭉날쭉 데이터,Messy>
●양이 증가하면 -> 정밀함은 떨어짐. 단 허융가능한 오류의 기준 낮춰 -> 데이터의 양 ▲ -> 질보다 양!
●Messy : 데이터 처리 전 cleaning 거쳐야 함
●빈도수 > 정밀성 & 양 > 정확성 : 어류 막는 것보다 용인하는 것이 더 좋은 결과 창출
ex) 자연어처리(NLP) : 데이터의 양 늘렸을 때 성과 증가, 구글의 1조개 단어
●들쭉날쭉함 : 불완전, 온갖종류의 오류를 포함한 데이터 -> 하지만 유용
ex) 체리포인트 정유공장 -> 질보다 양의 사례
●빅데이터를 불완전하기에 들쭉날쭉 발생 -> 더 많은 데이터 수집 > 정확도 투자
ex) SNS 팔로워 숫자표기 방식의 변화 (K)
●데이터 관리의 변화 : 인덱스(레이블링) -> 비표준화, 즉흥적(태그)
ex) '단일한 버전의 진실' , 'nosql'
●하둡 : 데이터 작은 덩어리들로 쪼개어 다른 기계들로 나눠 보낸다. -> 그 자리에서 분석 (양이 방대하므로)
ex) 제스트파이낸스(Douglas Merill)
●트레이드오프(tradeoff)
●종합적 관점 : 정확성 대신 애매모호한 방법
4장. <인과성&상관성>
ex) 아마존 닷컴 초기 : 고객데이터 수집 후 전통적 방식으로 처리(샘플링, 유사성찾기)
새 방법 : 아이템간 협업필터링(collaborative filtering) -> Why(X), What(O)
●상관성 : 두 데이터 값 사이의 통계적 관련성 수량화 ( 프랜시스 골턴 고안 )
ex) 월마트, 신용정보회사, 에퀴팩스, 보험사 등
●예측 : 결과, not 이유
ex) 알고리즘,UPS, 헬스케어
●인과성 : 1. 인과적 연관 찾고자 하는 직관적 욕구(인과적 연결성을 찾는 빠른 사고 방식)
2. 느린사고, 시간 많이 요구, 통제된 실험 환경 요구
●상관성 > 인과성, 상관성은 좋은 툴이 된다(유용, 효용)
ex) 맨해튼 맨홀 예측
5장. <데이터화>
ex) 메슈폰타인 모리의 행해도 사례 (가치 없는 자료에서 데이터 발굴)
●세상의 수량화 ( 정보기록 -> 보관 -> 숫자체계로 )
●데이터화 vs 디지털화 : 다른 개념
ex) 아마존의 텍스트 디지털화 vs 구글의 데이터화 된 텍스트
●공간 데이터화(GPS,위치정보 수집) -> 새로운 용도 or 새로운 가치 창조
●소통 데이터화(SNS,생각-기분-소통)
●센서, 사물 등 모든것(everything, IoE)으로 데이터 수집
6장. <가치>
●데이터의 가치 -> 모든 데이터, 이상, 센서. '비경합재' 가치 (비경합재 : 한 사람의 사용이 다른 사람의 사용에 방해X)
●데이터 재새용가치 : 1차적 용도 -> 2차적 용도, 2차적 용도에서 더 높은 가치 창출 가능
●데이터 재조합기회 : 총계 > 개별요소, 총계에 집중하면 -> 가치 증가한다.
●확장가능한 설계 : 데이터 설계 단계 부터 여러 목적에 사용할 수 있도록 반영
●데이터 감가상각 : 데이터 효용 -> 시간이 증가며 효용 감소. 생산성 있는 데이터 사용은 중요 + 가치상실 데이터에서 추려내는 과정 중요
●데이터 잔해가치 : 숨겨진 형식으로 재사용, 경쟁우위 기회
ex) 모자 데이터 사례, 전자책 습관+ 특정 단락 등
●오픈 데이터 가치 : 정부 부유 데이터는 가치가 높다.
7장. <영향>
●데이터 비즈니스 기업 : 1. 데이터 보유기업 2. 기술 보유 기업 3. 아이디어+빅데이터 사고방식
●빅데이터 가치사슬 : 정보(데이터) - 데이터 전문가(기술) - 벡데이터 사고방식 기업&개인(기회포착)
●기술 아웃소싱 : 기술이 가치의 원천만은 아님, 기술가치는 시간이 지나면서 떨어진다. 아이디어도 중요
●데이터의 가치 증가하게 될 미래 (데이터 중개인)
●원자재로써 데이터 : 거래 발생 가능
●전문가 종말 -> 기존의 전문가 < 통계전문가, 데이터전문가 -> 데이터 기반, 기초 방식에 구애받지 않음. 편견X, 상관성 의존은 증가
8장. <리스크>
●사생활, 개인정보 문제 -> 개인데이터 수집,저장, 재사용이 증가하며 발생.
●개인정보 수집과 활용 vs 인간의 자유의지, 공정, 정의
●정보분석 결과 오용 : 큰 문제 발생 가능 (e.g. 정치적)
●사생활 마비 -> 기업들의 수집 데이터 -> 누구를 가리키는지 쉽게 추적가능, 위험의 성격변화(수집목적 != 2차 용도), 익명화 불가(대량 데이터에서는 무효하다.)
●확률&처벌 : 개인의 행동 예측, 선택권이 사라질 수 있다 + 선택의 기회박탈 -> 책임면제 모순도 발생
ex)범죄 감시 예측
ex)맥나마라와 베트남전쟁 사례
9장. <통제>
●빅데이터 이면 해결 방법 -> 이용자들의 책임있는 행동, 자세
●동의에서 책임으로 :
데이터 이용자가 자신의 일에 대해 져야하는 책임에 초점, 잠재적 해악 막기위한 다양한 제도 포괄
공식적 빅데이터 용도 평가 -> 결과 시행 -> 2차 용도에 대한 문제 감소하게 될 것
책임 -> 대중보다 데이터 이용자가 목적을 잘 알고 있다.
차등적 사생활 : 정보를 의도적으로 흐리게(근사치만 제공)
●사람 vs 예측 : 1. 개방성(영향을 준 데이터, 알고리즘 공개), 2.인증(건전,유효 알고리즘 보장), 3.반증가능성(예측이 잘못되었다는 것 증명할 방법 명시), 4. 인간행위의 원칙보장(데이터 독재 막기위해)
●블랙박스 깨기 -> 알고리즘 복잡 -> 이해어려움, 책임X, 추적가능성,X 확신X = 블랙박스, 모니터링, 투평성 필요
●알고리즈미스트(Algorithmist) : 외부 , 내부에서 활동
●데이터 독점 방지
10장. <다음>
#데이터는 알고있다, 빅데이터가 만드는세상
#빅토르 마이어 쇤베르거
#케네스 쿠키어
댓글
댓글 쓰기