본문 바로가기
Chapter 2. Pandas 3편 : Time Series 머신러닝을 위한 Python 필수 라이브러리 2.2.10 데이터 로딩과 저장 2.2.10.1 파일 읽기 pandas에는 표 형식으로 되어있는 포맷으로 되어진 파일을 읽을 수 있도록 기능을 제공하고 있다. 그 중에서 주로 사용하는 read_csv와 read_table만 사용해보자. 해당 예제파일은 쉼표로 구분 되어있기 때문에 read_csv을 사용해서 dataframe으로 읽어올 수 있다. Read_table의 경우는 구분자를 쉼표로 지정해서 읽어올 수 있다. In [1]: !cat ex1.csv Out [2]: ,a,b,c,d 0,1,2,3,4 1,5,6,7,8 2,9,10,11,12 3,13,14,15,16 In [3]: df = pd.read_csv('ex1.csv', index_col = 0) In [4]: df Out [5]: abcd 01.. 2022. 8. 25.
Chapter 2. Pandas 2편 : Time Series 머신러닝을 위한 Python 필수 라이브러리 2.2 Time Series 머신러닝을 위한 Python 필수 라이브러리, Pandas 2편 2.2.3 원소선택, 인덱싱 2.2.3.1 series 인덱싱 인덱싱은 [위치] 또는 [‘인덱스명’]으로 인덱싱이 가능하다. In [1]: import pandas as pd import numpy as np In [2]: series_data = [2,4,6,8] In [3]: series_data = pd.Series(series_data) In [6]: series_data Out[6]: 0 2 1 4 2 6 3 8 dtype: int64 In [7]: series_data[1] Out[7]: 4 * 여러 값 인덱싱 및 슬라이싱 한 번에 여러 값을 인덱싱 하게 될 때는 위치나 인덱스명 둘 다 짝을 이루는 값.. 2022. 8. 25.
Chapter 2. Pandas 1편 : Time Series 머신러닝을 위한 Python 필수 라이브러리 2.2 Time Series 머신러닝을 위한 Python 필수 라이브러리, Pandas 1편 Pandas란? Python Data Analysis Library의 약어이며, R을 모티브로 하여 만들어진 파이썬 라이브러리이다. 쉽고 직관적인 관계형 또는 분류된 데이터로 작업할 수 있도록 설계된 빠르고 유연하며 표현이 풍부한 데이터 구조를 제공하고 있다. Pandas가 필요한 이유는 Numpy의 ndarray 데이터 구조는 산술 연산 작업에서 포맷이 잘 정리된 데이터 타입을 위한 기능들을 제공하고 있지만, 현실 데이터는 생각보다 정돈이 잘 되어있지 않기 때문이다. Pandas는 데이터를 표(table) 형태로 처리할 수 있어서 수집된 데이터의 전처리 등 각종 데이터 핸들링을 쉽고 편하게 할 수 있다. 그렇기.. 2022. 8. 25.