코딩일기

1. Hands-On Machine Learning with Scikit-Learn, Keras&TensorFlow 본문

Code/Book

1. Hands-On Machine Learning with Scikit-Learn, Keras&TensorFlow

daje 2021. 11. 9. 15:38
728x90
반응형

 

 

안녕하세요 다제입니다. 

 

오늘부터 책을 하나 읽고 있습니다. 

머리 속 흩어져있는 개념들을 하나로 묶어주는 작업이 필요하다 생각하여 교수님들의 추천을 받아 본 서적을 읽게 되었습니다. 

 

이 곳에서는 책을 읽으면서 느낀 점과 좋은 질문이라고 생각되는 것을 정리해 나가보려고 합니다. 

질문과 답의 형식으로 기재하였으며, 답은 접는 글로 숨겨놓았습니다. 생각해보시고, 답을 확인하시는 쪽으로 활용하면 좋을듯합니다.

 

1. 머신러닝을 어떻게 정의 할 수 있나요?

더보기

머신러닝은 데이터로부터 학습할 수 있는 시스템을 만드는 것입니다. 

여기서 학습이란 어떤 작업에서 주어진 성능 지표가 더 나아지는 것을 의미합니다. 

 

2. 머신러닝이 도움을 줄 수 있는 문제 유형 네 가지를 말해주세요

더보기

1) 명확한 해결책이 없는 복잡한 문제 

2) 수작업으로 만든 긴 규칙 리스트를 대체하는 경우, 변화하는 환경에 적응하는 시스템을 만드는 경우 

3) 사람에게 통찰을 제공해야 하는 경우

4) 시스템을 만드는 경우 

 

3. 레이블된 훈련 세트란 무엇인가요?

더보기

각 샘플에 대해 원하는 정답(레이블)을 담고 있는 훈련 세트 

 

4. 가장 널리 사용되는 지도 학습 작업 두 가지는 무엇인가요?

더보기

회귀, 분류 

※ 이런 질문이 면접에서 저를 당황시켜 일부러 더 명확하게 정리하려고 노력중입니다. 

 

5. 보편적인 비지도 학습 작업 네가지는 무엇인가요?

더보기

군집, 시각화, 차원축소, 연관 규칙 학습 

 

6. 고객을 여러 그룹으로 분할하려면 어떤 알고리즘을 사용해야 하나요?

더보기

1) 어떻게 그룹을 정의할지 모르는 경우

 -. 비슷한 고객끼리 군집으로 나누기 위해 군집 알고리즘을 사용할 수 있습니다. 

 

2) 어떻게 그룹을 정의할지 알고 있는 경우 

 -. 각 그룹에 대한 샘플을 주입하여 분류 알고리즘(지도학습)으로 분류를 합니다. 

 

7. 스팸 감지의 문제는 지도 학습과 비지도 학습 중 어떤 문제로 볼 수 있나요?

더보기

전형적인 지도 학습 문제입니다. 

알고리즘에 많은 이메일과 이에 상응하는 레이블이 제공됩니다. 

 

9. 온라인 학습, 외부 메모리 학습이 무엇인가요?

더보기

온라인 학습 시스템은 배치 학습 시스템과 달리 점진적으로 학습할 수 있습니다. 

이 방식은 변화하는 데이터와 자율 시스템에 빠르게 적응하고 매우 많은 양의 데이터를 훈련시킬 수 있습니다. 

 

외부 메모리 알고리즘은 컴퓨터의 주메모리에 들어갈 수 없는 대용량의 데이터를 다룰 수 있습니다. 

외부 메모리 학습 알고리즘은 데이터를 미니배치로 나누고 온라인 학습 기법을 사용해 학습합니다. 

 

10. 예측을 하기 위해 유사도 측정에 의존하는 학습 알고리즘은 무엇인가요?

더보기

사례 기반 학습 시스템은 훈련 데이터를 기억하는 학습입니다. 

새로운 샘플이 주어지면 유사도 측정을 사용해 학습된 샘플 중에서 가장 비슷한 것을 찾아 예측으로 사용합니다. 

 

11. 모델 파라미터와 학습 알고리즘의 하이퍼파라미터 사이에는 어떤 차이가 있나요?

더보기

모델은 하나 이상의 파라미터를 사용해 새로운 샘플이 주어지면 무엇을예측 할지 결정합니다. 

학습 알고리즘은 모델이 새로운 샘플에 잘 일반화되도록 이런 파라미터들의 처적값을 찾습니다. 

하아퍼파라미터는 모델이 아니라 이런 학습 알고리즘 자체의 파라미터입니다. 

 

12. 모델 기반 알고리즘이 찾는 것은 무엇인가요? 성공을 위해 이 알고리즘이 사용하는 가장 일반적인 전략은 무엇인가요? 예측은 어떻게 만

드나요?

더보기

모델 기반 학습 알고리즘은 새로운 샘플에 잘 이란화되기 위한 모델 파라미터의 최적값을 찾습니다. 

일반적으로 훈련 데이터에서 시스템의 예측이 얼마나 나쁜지 측정하고 모델에 규제가 있다면 모델 복잡도에 대한 페털티를 더한 비용함수를 최소화함으로써 시스템을 훈련시킵니다. 

예측을 만들려면 학습 알고리즘이 찾는 파라미터를 사용하는 모델의 예측 함수에 새로운 샘플의 특성을 주입합니다. 

 

13. 머신러닝의 주요 도전 과제는 무엇인가요?

더보기

머신러닝의 주요 도전 과제는

1) 부족한 데이터,

2) 낮은 데이터 품질,

3) 대표성 없는 데이터,

4) 무의미한 특성,

5) 훈련 데이터에 과소적합된 과도하게 간단한 모델,

6) 훈련 데이터에 과대적합된 과도하게 복잡한 모델 등이 있습니다. 

 

14. 모델이 훈련 데이터에서의 성능은 좋지만, 새로운 샘플에서의 일반화 성능이 나쁘다면 어떤 문제가 있는 건가요? 가능한 해결책 세 가지는 무엇인가요?

더보기

모델이 훈련 데이터에서는 잘 작동하지만, 새로운 샘플에서는 형편없다면 이 모델은 훈련 데이터에 과대적합되었을 가능성이 높습니다. 

 

** 해결책 **

1) 더 많은 데이터를 모으거나,

2) 모델을 단순화하거나

3) 훈련데이터의 잡음을 제거하거나

 

오늘은 몇가지 중요한 질문에 대해서 생각해보았습니다. 

머신러닝에서 학습을 한다는 것이 무엇을 말하는건가? 개괄적인 개념을 다시 잡는 chapter였습니다. 

 

함께 1권 쭉 읽어보시죠!

 

오늘도 글을 읽어주셔서 감사합니다. 

728x90
반응형