Artificial Intelligence/Machine Learning (3) 썸네일형 리스트형 사이킷런(Scikit-Learn) / 학습 데이터 준비 이번 글에서는 사이킷런(Scikit_Learn)을 통해 학습 데이터를 준비하는 방법을 설명합니다. 1.Scikit-learn이란?? 머신러닝에는 데이터가 많으면 많을수록 유리하고 더 정확한 결과를 도출해 내지만 데이터가 적더라도 머신러닝을 사용할 수 있는 방법이 있습니다. 바로 Cross-Validation인데 이를 파이썬 언어를 통해 활용하기 위해서 Scikit-learn을 먼저 알아보도록 하겠습니다. 사이킷런(Scikit-learn)은 파이썬(Python) 프로그래밍 언어용 오픈소스 기계학습 라이브러리입니다. 지원 벡터 머신, 랜덤 포레스트, 그레디언트 부스팅, K-means 및 DBSCAN을 포함한 다양한 분류, 회귀 및 클러스터링 알고리즘을 제공하며 파이썬 수치 및 과학 라이브러리 Numpy 및 .. machine learning을 위한 확률과 통계 machine learning을 위한 확률과 통계 1. 편향(Bias) - 분산(Variance) Tradeoff 편향(Bias) : 정답에 가까운 정도를 나타내는 값입니다. 분산(Variance) : 예측값들이 정답에 얼마나 모여있는가를 나타낸 값입니다. 이를 통해 Bias와 Variance간에는 Trade-off가 존재한다는 것을 알 수 있습니다. 2. 확률변수– 이산(이항분포, 포아송분포) 및 연속(정규분포) 이항 분포(二項分布)는 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포입니다. 이러한 시행은 베르누이 시행이라고 불리기도 한다. 사실, n=1일 때 이항 분포는 베르누이 분포입니다. 푸아송 분포(Poisson分布, 영어: Poisson distribution)는 .. 머신러닝 프로젝트 진행 과정(Workflow) 이번 글에서는 머신러닝 프로젝트 진행 과정(Workflow)에 대해 알아봅니다. 하고자 하는 프로젝트에 따라 진행과정은 조금씩 다르지만, 일반적인 예측 모델링 프로젝트(predictive modeling)는 다음과 같은 프로세스를 따릅니다. 1. 데이터 수집(Data Collection) 공개(public) 데이터셋은 수집과 전처리가 되어있지만, 커스텀(custom) 데이터셋은 수집과 전처리 작업을 직접 해야 합니다. 공개(public) 데이터셋을 얻을 수 있는 사이트는 다음과 같습니다. - 캐글 데이터셋(https://www.kaggle.com/datasets) - 구글 데이터셋 서치(https://toolbox.google.com/datasetsearch) - 비주얼 데이터셋(VisualData) *.. 이전 1 다음