728x90 공부 목록/IT & 프로그래밍99 데이터 프레임의 정보를 확인하는 pandas의 메서드들 파이썬의 라이브러리 중 pandas는 데이터 분석과 조작을 위한 강력한 라이브러리로, 다양한 메서드를 제공합니다. 오늘은 이러한 메서드들을 이용하여 데이터 프레임의 각종 정보를 확인하는 데 유용한 내용들을 정리해보려고 합니다. 오늘 확인할 메서드들은 다음과 같습니다. info / head / tail / describe / value_counts / unique / nunique / dtypes 1. pandas.info() 데이터프레임의 전반적인 정보를 제공합니다. 열의 개수, 열의 이름, 데이터 타입, 누락된 값의 개수 등을 확인할 수 있습니다. 이 메서드는 데이터프레임의 구조를 파악하는 데에 유용합니다. import pandas as pd # 데이터프레임 생성 data = {'Name': ['Joh.. 2023. 5. 30. 데이터 파일을 불러오는 파이썬의 read_excel() 함수 내용 정리 데이터 분석을 위해 우선적으로 데이터를 불러와야 합니다. 파이썬으로 데이터를 엑셀 파일로부터 불러오는 함수가 있습니다. pandas 라이브러리의 read_csv()와 read_excel()이 그러한 기능을 합니다. read_csv()와는 다르게 read_excel()의 경우 엑셀이 갖는 기능 때문에 좀 더 복잡하게 사용될 수 있습니다. 그럼 read_excel() 함수에 대해 알아보겠습니다. 1. pandas.read_excel() 함수의 기본 형태 pandas는 처음 import 할 때 축약어 'pd'로 불러옵니다. read_excel()은 엑셀의 기본 포맷인 '.xlsx'과 '.xls'의 파일을 불러올 수 있으며, 매크로 형식인 '.xlsm'의 확장자의 파일도 불러올 수 있습니다. 아래와 같이 rea.. 2023. 5. 29. pandas 의 read_csv 함수 사용 시 에러가 발생한다면? 파이썬에서 데이터 분석을 하기 위해 기본적으로 데이터를 불러와야 합니다. 분석을 위한 데이터는 보통 'csv'나'excel' 형식으로 되어 있을 가능성이 높습니다. 오늘은 데이터 분석을 위해 csv 파일을 로딩할 수 있는 pandas의 read_csv 함수에 대한 내용을 정리해 봅니다. 기본적인 인자에 대한 설명은 1~3절까지이며, encoding 에러는 4절, 포맷 에러의 경우 5절에 있으니 필요한 내용을 찾아 확인하시기 바랍니다. 1. pandas.read_csv() 함수의 기본 사용법 pandas의 read_csv() 함수는 CSV 파일을 읽어와 데이터프레임으로 변환하는 데 사용됩니다. 기본 시그니처는 아래와 같으며 해당 함수에는 많은 인자들이 포함되어 있습니다. pandas.read_csv('파일.. 2023. 5. 28. 파이썬 프로그램 개발 시 코드를 함수화 하는 이유와 목적은? 프로그래밍을 하다 보면 몇 개의 값만 변경될 뿐 같은 코드를 반복적으로 사용하는 경우가 많습니다. 이러한 코드를 반복해서 작성하면 코드의 길이도 길어지고 중간에 실수할 가능성이 있습니다. 파이썬에는 특정 코드 구문을 함수로 만들어 사용하는 기능을 제공합니다. 함수를 정의하고 사용하는 기준에 대해 설명하고 예제 코드를 사용하여 이해하기 쉽게 설명하도록 하겠습니다. 이러한 기준을 따라 코드를 함수로 정의하면 코드의 재사용성과 가독성이 향상되며, 유지보수가 용이해집니다. 1. 코드 재사용성 반복해서 사용되는 코드는 함수로 정의하는 것이 좋습니다. 코드를 함수로 추상화하면 여러 곳에서 동일한 로직을 사용할 수 있으며, 코드 중복을 피할 수 있습니다. def calculate_average(numbers): to.. 2023. 5. 27. 데이터 셋을 얻을 수 있는 파이썬 라이브러리들 파이썬 프로그래밍은 데이터 분석이나 머신러닝, 또는 딥러닝을 쉽게 다룰 수 있는 언어입니다. 복잡한 로직을 만들기 위해 프로그래밍 언어를 공부하거나 연습해야 하는데, 이때의 문제가 분석 또는 학습할 수 있는 데이터셋이 없다는 겁니다. 몇몇 라이브러리들이 이러한 문제를 해결하고자 데이터 셋을 제공해 줍니다. 오늘은 어떤 라이브러리가 데이터 셋을 제공하는지와 각 데이터 셋을 이용하는 방법에 대해 정리해 보고자 합니다. 1. scikit-learn or sklearn scikit-learn 라이브러리(sklearn)는 머신러닝 작업을 위한 다양한 내장 데이터셋을 제공합니다. 예를 들면 분류, 회귀, 클러스터링, 데이터 변환 등의 작업을 위한 데이터셋을 포함하고 있습니다. 위에서 언급한 iris, digits,.. 2023. 5. 27. 파이썬 데이터 셋 이용하여 분석 및 코딩 연습 (feat. iris dataset) 파이썬을 사용하여 데이터 분석이나 머신러닝을 공부하기 위해서는 데이터 셋이 필수적입니다. 파이썬의 몇몇 라이브러리들 중에는 이러한 데이터 셋을 제공해 주고 있습니다. 오늘은 이 중에서 가장 많이 사용되는 iris dataset(붓꽃 잎의 길이와 폭 데이터)에 대해 정리해 보려고 합니다. 1. Iris data set이란? Seaborn은 데이터 시각화를 위한 Python 라이브러리로, 기본적으로 많이 사용되는 데이터셋 중 하나인 iris 데이터셋을 제공합니다. iris 데이터셋은 통계학자 Ronald Fisher가 1936년에 도입한 붓꽃(iris)의 세 가지 종류에 대한 측정값을 포함하고 있습니다. iris 데이터셋에는 총 150개의 샘플이 있으며, 3가지 종류의 붓꽃(iris setosa, iris .. 2023. 5. 27. 맥북에서 발생하는 파이선 에러 SSL: CERTIFICATE_VERIFY_FAILED seaborn에서 데이터를 불러오는 코드를 작성하던 중 평소 윈도우에서 잘 발생하지 않는 에러를 만나게 되어 조금 당황했었습니다. 윈도우와 맥북을 오가며 파이썬을 다루고 있는데 환경이 조금 다르다 보니 가끔 이런 에러가 발생하면 어떻게 처리해야 할지 난감할 때가 더러 있습니다. 해당 에러가 발생했을 때 문제를 해결한 과정을 기록해 보려고 합니다. 1. SSL: CERTIFICATE_VERIFY_FAILED 에러를 만나다 보통 sklearn에서 데이터 셋을 불러왔는데 오늘은 seaborn에서도 데이터 셋을 로딩할 수 있다는 정보를 얻고 해당 기능을 코드에 넣어 봤습니다. import seaborn as sns # iris 데이터셋 로드 iris = sns.load_dataset("iris") 위의 코드에서.. 2023. 5. 26. iris 데이터의 상관관계를 파이썬에서 heatmap으로 그려보기 Heatmap은 데이터를 시각화하기 위해 사용되는 효과적인 방법 중 하나입니다. 주로 행렬 형태의 데이터를 시각적으로 나타내어 각 항목의 상대적인 크기나 중요도를 시각적으로 이해하기 쉽게 해 줍니다. Heatmap은 색상을 사용하여 데이터의 패턴, 트렌드, 상관관계 등을 파악할 수 있도록 도와줍니다. 오늘은 heatmap을 언제 사용하는지 알아보고, iris 데이터 셋 불러오기와 heatmap을 그려보는 것까지 정리해 보겠습니다. 1. 어떠한 경우에 heatmap을 사용하는가? Heatmap은 데이터의 밀집도를 색상으로 나타내기 때문에 시각적으로 직관적인 표현을 제공합니다. 이를 통해 데이터에서 숨겨진 패턴이나 경향성을 발견하고, 결정을 내리는 데 도움을 줄 수 있습니다. 데이터 분석 및 시각화: Hea.. 2023. 5. 26. 이전 1 ··· 4 5 6 7 8 9 10 ··· 13 다음 728x90