문돌이 존버/각종 꿀팁 및 해결법
2021. 7. 27.
판다스(pandas), 용량 큰 csv 파일 끊어 읽기
판다스로 용량이 큰 파일을 읽을 때 속도가 느려지고, 심지어는 커널이 죽을 때도 있습니다. 특히 금융권, 제조업 데이터는 크키가 엄청나기 때문에 전체 파일을 읽어오기 힘든데요. 이때 파일을 쪼개서(=끊어서) 읽는 방법이 있습니다. 사이킷런 데이터셋에서 제공하는 "아이리스" 데이터를 사용하겠습니다. import pandas as pd from sklearn.datasets import load_iris iris = load_iris() df = pd.DataFrame(iris.data, columns=iris.feature_names) df.to_csv('./iris.csv') 파일을 쪼개 읽는 방법은 read_csv() 파라미터로 chuncksize 를 추가하면 됩니다. ck = pd.read_csv('..