머신러닝은 무엇이고 왜 필요한가?

머신러닝

2020. 1. 8. 00:15

  • 본 포스팅은 Kevin Murphy의 Machine Learning: A Probabilistic Perspective
  • Christopher Bishop의 PRML을 한글로 번역/요약/쉽게 설명하여 올리는 프로젝트입니다.
  • 언제 끝날지 모르는 장기 프로젝트지만 열심히 공부하면서 정리해보겠습니다.

 

1) 빅데이터의 홍수 - (Murphy 1p)

우리는 빅데이터의 홍수 속에서 살고 있다. (1조개의 웹페이지, 매일 10년분량의 동영상이 유튜브에 업로드 됨) 급증하는 데이터는 머신러닝에 의해 제공되는 자동분석 기법을 요구하며, 우리는 머신러닝을 다음처럼 정의한다.

머신러닝(기계학습) : 데이터에서 패턴을 자동으로 검출하여, 미래 데이터를 예측하거나 불확실한 상황에서 의사결정을 내리기 위한 방법들의 집합

 

2) 패턴 인식 - (PRML 1p)

[그림] 손글씨 데이터셋, MNIST라고 불림

그렇다면 머신러닝은 왜 필요할까? 주어진 데이터에서 특정한 패턴을 찾아내는 것은 때때로 중요한 문제이다. 손글씨로 쓰인 숫자를 인식하는 예시를 살펴보도록 하자. 위의 그림에서 그 예제(MNIST)들을 확인할 수 있다. 각 숫자는 28 x 28 픽셀의 이미지이며, 이 것을 784(=28x28)개의 실수로 구성된 벡터 $x$로 표현할 수 있다. 목표는 위의 벡터 $x$를 입력으로 받았을 때, 숫자 0~9 중 하나의 값을 올바르게 출력하는 기계를 만드는 것이다.

 

3) 휴리스틱하게 풀면 안돼? - (PRML 1p)

손글씨는 쓰는 사람에 따라서 아주 다양한 형태를 지니기 때문에 이 것이 그리 만만한 문제는 아니다. (어렵다) 필체모양을 바탕으로 직접 작성한 규칙(if-else)나 휴리스틱 알고리즘을 통해 생성된 규칙을 사용해서 이 문제를 도전할 수는 있지만, 수 없이 많은 규칙과 예외사항이 필요하고, 예외사항들을 처리하기 위한 예외사항이 또 필요하고.... 그런데도 최종적으로 구현된 애플리케이션은 성능은 별로 좋지 못할 것이다. (애초에 구현 어려움)

 

4) 확률 이론 - (Murphy 1p)

이 책에서는 위와 같은 문제들을 해결하는 가장 좋은 방법은 바로 확률이론이라고 생각한다. 확률이론은 우리 일상생활의 불확실성(Uncertainty)에 관련된 거의 모든 문제에 적용 될 수 있다. 실제로 우리가 머신러닝을 수행할 때에도 불확실성이라는 것은 여러가지 형태로 나타나게 된다

1) 과거 데이터에 기반하여, 미래에 대한 가장 좋은 예측은 무엇일까?
2) 어떤 데이터를 설명할 수 있는 최고의 모델은 무엇일까?
3) 내가 다음에 수행해야하는 측정은 도대체 무엇인가? 등등

 

머신러닝 문제에 대한 확률적 접근은 우리가 이미 알고있는 통계학과 밀접한 연관이 있지만, 그것(확률적 접근)이 강조되는 부분들이나 세부적인 용어 등의 면에서 약간의 차이가 존재한다.

 

5) 이 책의 목표 - (Murphy 1p)

이 책에서는 다양한 종류의 데이터와 태스크들에 적합한, 다양한 확률적 모델을 소개할 것이며, 이러한 모델들을 학습시키기 위한 다양한 알고리즘들 역시 소개할 것이다. 이 책의 목표는 단순히 특정 기술을 위한 Cookbook이 아니라, 확률론적인 모델링/추론을 통해 전체적으로 통합적인 관점(view)를 제공하는 것이다. 이 책에서는 물론, 계산적인 효율성에도 주의를 기울일 예정이지만, 이러한 확률모델들을 어떻게 실제로 엄청나게 큰 데이터로 확장하는지에 대해서는 다른책 (Rajaraman and Ullman 2011)에 더 잘 설명되어있다.

 

6) 적은 샘플 데이터에서의 머신러닝 - (Murphy 2p)

대규모의 데이터셋이 있는 경우에도, 특정관점에 대해 유효한 데이터 포인트 수는 굉장히 적을 수 있다. 실제로 여러가지 도메인에 다양하게 걸쳐있는 데이터는 Long Tail이라고 잘 알려진 속성들을 보여주는데, 그것은 핵심 확률 문제들에서 작은 샘플 사이즈 데이터를 일반화 하는 문제가 여전히 빅데이터 시대에도 유용하다는 것을 의미하게 된다.

 

'머신러닝' 카테고리의 다른 글

머신러닝의 데이터, 단계, 타입  (0) 2020.05.26