본문 바로가기

데이터 사이언스 공부노트/머신러닝, 딥러닝

[코세라 강의 정리] 앤드류 응의 머신러닝 - Supervised / Unsupervised Learning

프로젝트와 모의 면접을 보고 나서 개념적인 부분을 다시 한번 정리할 필요성을 느꼈다.

코세라(Coursera)에 있는 앤드류 응 교수님의 머신 러닝 강의는 무료인 데다 퀄리티가 매우 좋아서 다들 추천하는 강의인데, 여기저기 흩어진 개념을 정리하고자 수강하기로 결정했다.

 

이 강의는 코세라에서도 들을 수 있고 유튜브에서도 들을 수 있는데, 나는 코세라에서 들었다. 그 이유는 중간중간에 이해를 잘하고 있는지 퀴즈가 나온다. 또, 한 챕터가 끝나면 Review 코너에서 퀴즈를 풀어볼 수 있는데 80% 이상 맞아야 통과가 된다. 이런 시스템들로 내가 잘 이해하고 있는지 점검할 수 있었기 때문이다. (유튜브는 어떻게 되는지 모르겠다.)

 

코세라 강의 링크 : https://www.coursera.org/learn/machine-learning

 

기계 학습

스탠퍼드 대학교에서 제공합니다. Machine learning is the science of getting computers to act without being explicitly programmed. In the past decade, machine ... 무료로 등록하십시오.

www.coursera.org

유튜브 강의 재생목록 : https://www.youtube.com/playlist?list=PLLssT5z_DsK-h9vYZkQkYNWcItqhlRJLN 

 

Machine Learning — Andrew Ng, Stanford University [FULL COURSE]

About this course ------------------------------ Machine learning is the science of getting computers to act without being explicitly programmed. In the past...

www.youtube.com

 

 

지도 학습(Supervised Learning) / 비지도 학습(Unsupervised Learning)


머신러닝 알고리즘은

  • 지도 학습 (Supervised learning)
  • 비지도 학습 (Unsupervised learning)
  • Others : 강화 학습(Reinforcement learning), 추천 시스템(recommender systems)

으로 나눌 수 있다.

 

1. 지도 학습(Supervised Learning)

지도 학습은 정답이 있는 데이터셋을 통해서 우리가 원하는 값을 찾아내려는 학습 방법이다.

즉, 여러 특징(feature)들과 그에 맞는 정답(label)을 알려주고, 우리가 알고 싶은 feature 조건에 대한 답을 예측하는 것이다.

 

지도 학습은 다시 회귀(Regression)분류(Classification)로 나뉜다.

 

1.1 회귀(Regression)

회귀 문제는 집값 예측과 같이, 연속적인 값을 답(label)으로 두고 이를 예측하려는 것이다.

집 크기 vs 가격 회귀 그래프

1.2 분류(Classification)

분류 문제는 해당 샘플이 어떤 그룹(class)에 속하는지를 예측하는 것이다. 따라서 예측 값은 discrete 한 값이 나온다.

 

종양의 크기에 따른 악성 유무 판단

 

2. 비지도 학습(Unsupervised Learning)

비지도 학습은 데이터셋에 정답이 없기 때문에 예측한 것이 틀렸는지 맞는지는 모른다. 그래서 주로 데이터에 숨겨진 특징이나 구조를 파악하는 데이터 마이닝의 성격을 띤다.

 

비지도 학습은 ClusteringNon-clustering으로 나뉜다.

 

2.1 Clustering

클러스터링은 데이터셋에서 비슷한 항목끼리 묶어주는 역할을 한다.

Clsutering 예시

인터넷 포털 사이트에서 비슷한 뉴스끼리 묶어서 보여주는 것이 실생활 예라고 할 수 있다. 또, 유전자 특성 분류, 고객 세분화 등에도 사용될 수 있다.

 

2.2 Non-clustering

Non-clustering은 칵테일파티 알고리즘을 예로 들 수 있다.

칵테일 파티 문제

칵테일파티를 하는 상황을 상상해보자. 음악 소리가 들리고 여러 사람들이 떠들고 있다. 이와 같이 매우 혼잡한 상황에서 녹음을 하면 여러 소리가 섞여서 뭐라고 하는지 알아듣기 힘들다. 하지만 비지도 학습법의 Non-clustering을 활용하면 특정 구조를 가진 소리만 추출할 수 있다 (ex. 음악 소리와 사람 목소리를 분리).

 

 

 

 

* 공부 정리 목적으로 쓴 글입니다. 오타나 수정사항이 있으면 바로 알려주세요.