본문 바로가기
공부 목록/IT & 프로그래밍

Python 라이브러리 datafram 내 groupby() 함수 사용법

by 독학박사 2023. 7. 10.

목차


     파이썬의 라이브러리인 pandas에는 데이터를 그룹화하고 그룹별 연산을 수행하기 위해 groupby()라는 함수를 제공합니다. groupby()를 왜 사용하는지, 기본 형태는 어떠한지를 알아보고 기본형태 내 인자들에 대한 설명을 하려고 합니다. 또한, 각 인자들이 어떠한 역할을 하는지 예제 코드를 통해 알아보도록 하겠습니다.

     

     

    파이썬 groupby() 함수
    파이썬 groupby() 함수

     

    1. Groupby() 함수는 언제 사용하는가?

    groupby() 함수는 기본적으로 데이터 프레임 내 특정값을 기준으로 그룹화를 하고 그룹별로 연산을 할 수 있도록 합니다. 또한, 분리된 그룹에 독립적으로 함수를 적용하거나 조건을 기반으로 그룹을 필터링할 때 사용할 수 있습니다. 다음과 같이 목적별로 구분한 내용을 참고하시기 바랍니다.

     

    집계(Aggregation):
    데이터를 그룹화하고 그룹별로 집계 연산을 수행할 때 사용됩니다. 예를 들어, 그룹별 평균, 합계, 최댓값, 최솟값 등을 계산할 수 있습니다.

    분할-적용(Split-Apply):
    데이터를 여러 그룹으로 분할한 후, 각 그룹에 대해 독립적으로 함수를 적용할 때 사용됩니다. 그룹별로 특정 작업을 수행하고 결과를 반환할 수 있습니다.

    필터링(Filtering):
    그룹화된 데이터에서 조건을 기반으로 그룹을 필터링할 때 사용됩니다. 조건에 맞는 그룹만 선택하여 작업을 수행할 수 있습니다.

    변환(Transforming):
    그룹 내에서 데이터를 변환하거나 정규화하는 작업을 수행할 때 사용됩니다. 각 그룹 내에서 데이터를 조작하고 변환할 수 있습니다.

     

    아래와 같이 위의 목적에 맞는 예제코드를 확인하면 목적의 의미를 확인하는데 도움이 될 겁니다.

     

    import pandas as pd
    
    # 예제 데이터프레임 생성
    data = {
        'Country': ['USA', 'USA', 'USA', 'China', 'China', 'China'],
        'Year': [2010, 2010, 2015, 2010, 2015, 2015],
        'Population': [309, 318, 324, 1340, 1404, 1416]
    }
    df = pd.DataFrame(data)
    
    
    # 1. 집계 (Aggregation)
    # 국가별로 평균 인구 계산
    avg_population_by_country = df.groupby('Country')['Population'].mean()
    print(avg_population_by_country)
    # 출력:
    # Country
    # China    1386.666667
    # USA       317.000000
    # Name: Population, dtype: float64
    
    
    # 2. 분할-적용 (Split-Apply)
    # 각 연도마다 가장 인구가 많은 국가 선택
    max_population_country_by_year = df.groupby('Year').apply(lambda x: x.loc[x['Population'].idxmax()])
    print(max_population_country_by_year)
    # 출력:
    #       Country  Year  Population
    # Year                           
    # 2010      USA  2010         318
    # 2015    China  2015        1416
    
    
    # 3. 필터링 (Filtering)
    # 2010년에 인구가 300 이상인 국가 그룹 선택
    filtered_group = df.groupby('Year').filter(lambda x: x['Population'].sum() >= 300)
    print(filtered_group)
    # 출력:
    #   Country  Year  Population
    # 0     USA  2010         309
    # 1     USA  2010         318
    # 3   China  2010        1340
    
    
    # 4. 변환 (Transforming)
    # 각 국가의 인구를 전체 인구 대비 비율로 변환
    normalized_population = df.groupby('Country')['Population'].transform(lambda x: x / x.sum())
    df['Normalized Population'] = normalized_population
    print(df)
    # 출력:
    #   Country  Year  Population  Normalized Population
    # 0     USA  2010         309               0.971698
    # 1     USA  2010         318               1.000000
    # 2     USA  2015         324               1.000000
    # 3   China  2010        1340               0.956204
    # 4   China  2015        1404               0.993197
    # 5   China  2015        1416               1.000000

     

     

     

    2. Groupby() 함수의 기본 형태와 인자들

    판다스의 데이터프레임 내 함수인 groupby() 함수의 기본형태는 아래와 같습니다.

     

    DataFrame.groupby(
        by=None,
        axis=0,
        level=None,
        as_index=True,
        sort=True,
        group_keys=True,
        squeeze=False,
        observed=False,
        dropna=True,
    )

     

    각 인자들의 설명입니다.

     

    by: 그룹화할 기준이 되는 열 또는 열의 리스트입니다. 그룹화할 기준을 지정합니다.

    axis: 그룹화할 축을 지정합니다. 기본값은 0으로, 행 기준으로 그룹화를 수행합니다. 1로 설정하면 열 기준으로 그룹화를 수행합니다.

    level: 계층적 인덱스가 있는 경우 그룹화할 레벨을 지정합니다.

    as_index: 그룹화한 열을 인덱스로 사용할지 여부를 지정합니다. 기본값은 True로, 그룹화한 열을 인덱스로 사용합니다.

    sort: 그룹화한 결과를 정렬할지 여부를 지정합니다. 기본값은 True로, 그룹화한 결과를 정렬합니다.

    group_keys: 그룹화한 결과의 인덱스 계층에 그룹 키를 추가할지 여부를 지정합니다. 기본값은 True로, 그룹 키를 인덱스 계층에 추가합니다.

    squeeze: 그룹화 결과가 단일 그룹인 경우에는 Series로 반환할지 여부를 지정합니다. 기본값은 False로, 그룹화 결과가 DataFrame으로 반환됩니다.

    observed: Categorical 데이터의 경우, 관측되지 않은 카테고리를 포함할지 여부를 지정합니다. 기본값은 False로, 관측되지 않은 카테고리를 포함하지 않습니다.

    dropna: 그룹화할 때 결측치를 제외할지 여부를 지정합니다. 기본값은 True로, 결측치가 있는 행은 그룹화에서 제외됩니다.

     

     

    3. 각 인자들의 이해를 돕기 위한 예제 코드

    다음은 각 인자들을 활용하여 어떠한 결과가 나오는지 알아보기 위한 예제 코드입니다. 

     

    import pandas as pd
    
    
    # 예제 데이터프레임 생성
    data = {
        'Category': ['A', 'A', 'B', 'B', 'A', 'B'],
        'Subcategory': ['X', 'Y', 'X', 'Y', 'X', 'Y'],
        'Value': [10, 20, 30, 40, 50, 60]
    }
    df = pd.DataFrame(data)
    
    
    # by 인자: Category로 그룹화
    grouped_by_category = df.groupby(by='Category')
    print(grouped_by_category.sum())
    # 출력:
    #          Value
    # Category
    # A           80
    # B          130
    
    
    # axis 인자: 열 기준으로 그룹화
    grouped_by_column = df.groupby(axis=1)
    print(grouped_by_column.sum())
    # 출력:
    #     Value
    # 0      10
    # 1      20
    # 2      30
    # 3      40
    # 4      50
    # 5      60
    
    
    # level 인자: MultiIndex를 가진 데이터프레임의 레벨 기준으로 그룹화
    df.set_index(['Category', 'Subcategory'], inplace=True)
    grouped_by_level = df.groupby(level='Category')
    print(grouped_by_level.sum())
    # 출력:
    #           Value
    # Category
    # A            80
    # B           130
    
    
    # as_index 인자: 그룹화한 열을 인덱스로 사용하지 않음
    grouped_without_index = df.groupby('Category', as_index=False).sum()
    print(grouped_without_index)
    # 출력:
    #   Category  Value
    # 0        A     80
    # 1        B    130
    
    
    # sort 인자: 그룹화 결과를 정렬하지 않음
    grouped_unsorted = df.groupby('Category', sort=False).sum()
    print(grouped_unsorted)
    # 출력:
    #           Value
    # Category
    # A            80
    # B           130
    
    
    # group_keys 인자: 그룹 키를 인덱스 계층에 추가하지 않음
    grouped_no_keys = df.groupby('Category', group_keys=False).sum()
    print(grouped_no_keys)
    # 출력:
    #          Value
    # Category
    # A           80
    # B          130
    
    
    # squeeze 인자: 단일 그룹인 경우 Series로 반환
    grouped_squeezed = df.groupby('Category', squeeze=True).sum()
    print(grouped_squeezed)
    # 출력:
    # Category
    # A     80
    # B    130
    # Name: Value, dtype: int64
    
    
    # observed 인자: Categorical 데이터의 관측되지 않은 카테고리 포함
    df['Category'] = pd.Categorical(df['Category'], categories=['A', 'B', 'C'])
    grouped_observed = df.groupby('Category', observed=True).sum()
    print(grouped_observed)
    # 출력:
    #           Value
    # Category
    # A            80
    # B           130
    # C             0
    
    
    # dropna 인자: 결측치를 포함하여 그룹화
    df.loc[3, 'Value'] = None
    grouped_with_na = df.groupby('Category', dropna=False).sum()
    print(grouped_with_na)
    # 출력:
    #           Value
    # Category
    # A            80
    # B           130
    # C             0

     

     

    4. 마치며

    지금까지 python 라이브러리 중 pandas의 dataframe 내 groupby() 함수의 사용 목적과 기본 형태 그리고 그 안의 인자들에 대해서 정리해 보았습니다. 본 포스팅에서 정리한 내용은 기본적인 내용으로 실제 코드에 적용하기 위해서는 변형과 응용이 필요합니다. 각 예제들을 이해해 보고 활용에 도움이 됐으면 합니다.