최근 SK바이오의 이동훈 부사장님이 진행하시는 산업 스터디를 하면서, Valuation에 관심을 가지게 되었다. 그동안 퀀트가 맞는 건지 가치투자를 하는 것이 맞는지, 경계를 나누면 안 되는 것 같기도 하고 복잡했는데, 부사장님이 알려주시는 Valuation 강의를 듣고 감명을 받고, 아 Valuation을 하게 되면 Narrative와 Number를 적절히 섞을 수 있겠구나 생각하게 되었다. 또한 자연스럽게 Valuation의 대가인 Damodaran 교수님의 Narrative & Numbers라는 책을 접하게 되었다. 이 책의 첫 부분을 읽었을 때 핵심은 Narrative 즉 스토리텔링과 Numbers 즉 퀀트가 둘 다 중요하고 서로 보완적인 관계가 되어야 한다는 것을 느꼈다. 아직 앞부분만 보고 있는데 그중에 나의 현업과 연관되는 데이터에 관한 내용이 인상적이어서 이 글을 적어보게 되었다. 데이터를 이용해서 결과를 보여주는 process에는 크게 데이버 수집, 분석, 제시라는 3가지 단계를 통하게 된다. 이때 조심해야 할덧은 각 단계별로 편향에 빠질 수 있다는 점이다.
1. 데이터 수집 에서의 편향
분석에 사용하는 데이터는 객관적이라고 생각할 수 있지만, 그 수집 과정을 보면 그렇지 않은 경우가 많다. 첫 번째로 선택 편향(Selection bias)이다. 통계학에서는 큰 수의 법칙에 의해 큰 모집단에서 고른 sample로 결론을 도출하게 되는데, 이때 sample이 완전히 random 하게 얻어져야 한다는 가정이 붙는다. 하지만 이 random이 참으로 어렵다. 기업들의 미국 내 투자 실적을 통계내는 작업을 예로 들었을 때, 실적이 좋다는 것만 보여주고 싶다면 S&P500 기업만 포함하고 전체 기업에 일반화시킬 수 있다. 그렇게 되면 당연히 투자 실적이 좋게 나올 것이다. 이렇게 sample을 선택할 때 편향이 발생할 수 있고, 이것이 노골적일 수도 있고 자신이 눈치채지 못하게 발생할 수도 있으니 항상 조심해야 한다. sample에서 제외시킨 데이터도 항상 같이 체크하는 습관이 편향을 막을 수 있는 방법이라 한다.
두 번째로 생존자 편향(Survivor bias)이다. 자기도 모르는 선택 편향으로 이해할 수 있는데, 이런저런 이유로 데이터에서 제외된 세상을 아예 무시하면서 발생하는 편향이다. 예를 들어 헤지펀드 수익률을 조사하는 연구에서, 현재 존재하는 헤지펀드만을 가지고 통계를 내서 헤지펀드가 초과수익률을 달성했다고 결론을 낼 수 있다. 그러나 최악의 실적을 내서 파산한 헤지펀드는 고려가 안되어있고 살아남은 그나마 우량한 헤지펀드가 고려되었기 때문에 생존자 편향이 발생한 것이다.
2. 데이터 분석에서의 편향
보통 나는 데이터 분석을 할 때 히스토그램을 자주 사용한다. 이때 어떤 range 기준으로 데이터를 하나의 bin으로 묶을 것인가에 따라 편향이 생기게 된다. 또한 평균값을 사용하게 되면, 고르지 않은 데이터 분포를 가진 sample일 경우 편향이 발생하며 (이럴 경우 mean 보단 median이 낫다), 아무 때나 정규분포를 들고 와서 분석을 해도 편향이 생길 수 있다. 이 외에도 outlier 처리과정 등 데이터 분석에도 편향이 많이 생긴다. 내가 공부하고 있는 High energy physics (HEP) 분야에는 이런 편향이 발생하면 결과가 완전히 바뀌기 때문에 항상 조심하고 있고, 이를 막고자 uncertainty에 관해서 심도 있게 다루기도 한다.
3. 데이터 제시에서의 편향
데이터를 제시할 때에도 축의 스케일을 로그로 바꾼다던지 차원을 올려서 복잡하게 보여준다던지 여러 편향이 발생할 수 있다. 내가 경험했던 예로, 슈퍼컴퓨터를 이용해서 딥러닝을 돌리는 실험을 했었는데, 노드 개수에 따라서 Linear 하게 학습 속도가 올라가는 것을 보여주고 싶었다. 노드 간 통신시간 때문에 결과가 이상적인 Linearity 를보여주지 않아서, 이때 일부러 축을 로그 스케일을 쓴 경험이 있다. 이렇게 상대적으로 객관적인 데이터를 이용한 결과 도출일지라도, 데이터를 다루는 사람의 의도에 유리하게 (조작이 아닌 범위 내에서) 데이터를 제시할 수 있기 때문에 해당 결과를 받아들이는 사람 입장에서는 항상 조심해야 한다. 또한 데이터를 다루는 사람 입장에서도, 항상 visualization은 정보전달을 효율적으로 하기 위한 수단이라는 본질적인 의미를 인지하고 있어야겠다.
4. 회고
이 외에도 내가 최근에 빠졌던 편향하나가 기억난다. 산업 스터디에서 미용 의료기기에 관한 전망을 조사하는데, 2020년 나이대별 미용 의료기기 사용량에 관한 데이터를 얻게 되었다. 나이대가 젊어질수록 다른 미용시술보다 에너지 기반의 미용의료기기 시술을 많이 하는 것을 확인할 수 있었는데, 내가 데이터를 입수하게 된 process에 관해서 비판적으로 생각해볼 시도도 하지 않았고, 해당 결과를 뒷받침할 수 있는 논문만 찾으려고 노력했었다. 심지어 논문에는 정반대 되는 결과가 있었음에도 불구하고 그냥 무시하고 내가 가진 데이터에 유리하게 작용하는 논문만 찾으려 했었다. 물론 시간이 굉장히 없어서 급한 마음도 있었겠지만 Narrative & Numbers라는 책을 읽으면서 굉장히 반성하게 되고 앞으로는 데이터를 다루는 사람으로서 편향과 싸우는 방법에 대해서 항상 생각해야겠다고 다짐했다.
책을 읽으면서 편향에 대처하는 방법으로, 나의 현생인 HEP에서 지겹게 마주치는 Uncertainty study 가 투자분야에도 쓰일 수 있지 않을까? 하는 새로운 뷰가 생겼고, Valuation이라는 새로운 공부할 만한 흥미로운 분야를 알게되었다. 공부하다가 uncertainty를 마주했을 때 항상 짜증을 냈었는데 이런 새로운 뷰 덕분에 관심 있게 공부할 수 있는 motivation이 생긴 듯하고, valuation이라는 분야를 좀 더 알기 위해 Damodaran 교수님의 Investment Valuation이라는 엄청 두꺼운 원서를 빌려서 읽게 되는 계기가 되었다. 역시 독서와 새로운 사람들을 만나서 하는 스터디는 나의 인생 여러모로 긍정적 영향력을 준다.
http://www.yes24.com/Product/Goods/90196748
내러티브 앤 넘버스 - YES24
트위터와 페이스북은 어떻게 수십억 달러의 평가를 받았을까?이익이 전혀 나지 않는 기업에 수십억 달러의 가치가 매겨지는 이유는 무엇인가? 어떤 스타트업은 대규모 투자를 유치하는데 어떤
www.yes24.com
'투자' 카테고리의 다른 글
인공지능 투자1. 백테스팅을 Hyperparameter optimizer 로 자동화 하기 (2) | 2024.04.03 |
---|---|
클하대학교 - 현실화된 인플레이션과 투자전략 정리 (0) | 2022.06.20 |
근황, 산업스터디 (Feat 비상금의 중요성) (2) | 2022.04.26 |
퀀트킹 백테스터04 피터린치 전략 (0) | 2022.02.26 |
퀀트킹 백테스터03 배당 전략 (0) | 2022.02.26 |