-
머신러닝 - 라이브러리Language & DB/Machine Learning 2019. 10. 24. 21:33반응형
주피터 노트북
- 프로그램 코드를 브라우저에서 실행해주는 대화식 환경이다. 이 방식은 탐색적 데이터 분석에 적합하여 많은 데이터 분석가가 주피터 노트북을 사용하고 있다.
NumPy
- 파이썬으로 과학 계산을 하기위해 꼭 필요한 패키지이다. 다차원 배열을 위한 기능과 선형 대수 연산과 푸리에 변환 같은 수준 수학 함수와 유사난수 생성기를 포함합니다.
scikit-learn에서 NumPy 배열은 기본 데이터 구조입니다. scikit-learn은 NumPy 배열 형태의 데이터를 입력으로 받습니다.
그리하여 우리가 사용할 데이터는 NumPy 배열로 변환되어야 한다.
* 핵심기능: 다차원 배열인 ndaaray 클래스이다. 이 배열의 모든 원소는 동일한 데이터 타입이어야 한다.
SciPy
- 과학 계산용 함수를 모아놓은 파이썬 패키지이다.
* 핵심기능: scipy.sparse 이 모듈은 scikit-learn에서 데이터를 표현하는 또 하나의 방법인 희소 행렬 기능을 제공한다.
희소 행렬은 ()을 많이 포함한 2차원 배열을 저장할 때 사용된다.
matplotlib
- 파이썬의 대표적인 과학 계산용 그래프 라이브러리
선 그래프, 히스토그램, 산점도 등을 지원한다.
pandas
- 데이터 처리와 분석을 위한 파이썬 라이브러리 ( DataFrame 데이터 구조를 기반으로 만들어졌다. )
pandas의 DataFrame은 엑셀의 스프레드시트와 비슷한 테이블 형태라고 할 수 있다.
pandas는 이 테이블을 수정하고 조작하는 다양한 기능을 제공한다.
* NumPy와 달리 각 열의 타입이 달라도 된다.
* SQL, 엑셀 파일, CSV 파일 같은 다양한 파일과 데이터베이스에서 데이터를 읽어 들일 수 있다.
-> "파이썬 라이브러리를 활용한 데이터 분석" 자세한 설명
반응형'Language & DB > Machine Learning' 카테고리의 다른 글
머신러닝 - 환경구축 (0) 2019.10.24 머신러닝 - 비지도 학습 알고리즘 (0) 2019.10.24 머신러닝 - 지도 학습 알고리즘 (0) 2019.10.24