Module data_cleaner.py

This module contains a set of functions for cleaning and preprocessing the data used to create the visualizations.

data_cleaner.add_state_name_to_data(geodataframe: GeoDataFrame) GeoDataFrame

Add state names to a GeoDataFrame containing Brazil map data.

Parameters:

(gpd.GeoDataFrame) (geodataframe) – The original GeoDataFrame with unmodified Brazil map data.

Returns:

A GeoDataFrame with improved data and a new “Sigla da UF” column.

Return type:

gpd.GeoDataFrame

Examples

>>> gdf = gpd.GeoDataFrame({'codarea': [12, 27, 16], 'geometry': [None, None, None]})
>>> gdf_with_state = add_state_name_to_data(gdf)
>>> 'Sigla da UF ' in gdf_with_state.columns
True
>>> gdf_with_state['Sigla da UF '].tolist()
['AC', 'AL', 'AP']
data_cleaner.area_de_avaliacao_cleaner(dataframe: DataFrame) DataFrame

Clean and preprocess a DataFrame, specifically the “Área de Avaliação” column.

Parameters:

input (dataframe (pd.DataFrame): The original DataFrame with the 'Área de Avaliação' column to be cleaned.) –

Index:

RangeIndex

Columns:

Name: ‘Área de Avaliação’, dtype: object

Returns:

A cleaned DataFrame with the “Área de Avaliação” column modified.

Return type:

pandas.DataFrame

Examples

>>> data = pd.DataFrame({'Área de Avaliação': ['Science (Physics)', 'arts (music)']})
>>> cleaned_data = area_de_avaliacao_cleaner(data)
>>> 'Área de Avaliação' in cleaned_data.columns
True
>>> cleaned_data['Área de Avaliação'].tolist()
['Science ', 'Arts ']
data_cleaner.area_de_avaliacao_long(dataframe: DataFrame) DataFrame

Modify the names of some courses to make them shorter in a DataFrame.

Parameters:

(pd.DataFrame) (df) – The DataFrame used for modification.

Returns:

A DataFrame with the changed course names.

Return type:

pd.DataFrame

Examples

>>> data = pd.DataFrame({'Área de Avaliação': ['Tecnologia Em Redes De Computadores', 'Tecnologia Em Análise E Desenvolvimento De Sistemas', 'Other']})
>>> modified_data = area_de_avaliacao_long(data)
>>> modified_data['Área de Avaliação'].tolist()
['Redes De Computadores', 'Desenvolvimento De Sistemas', 'Other']
data_cleaner.dataframe_cleaner(dataframe: DataFrame) DataFrame

Clean and preprocess the ‘resultados_cpc’ DataFrame.

This functions checks if the dataframe have all needed columns to the analysis and graph making process, it also removes all the useless rows.

Parameters:

input (dataframe (pandas.DataFrame)) –

Index:

RangeIndex

Columns:

Name: ‘Área de Avaliação’, dtype: object Name: ‘Sigla da UF** ‘, dtype: object Name: ‘ Nº de Concluintes Inscritos’, dtype: int64 Name: ‘ Nº de Concluintes Participantes’, dtype: int64 Name: ‘ Nota Padronizada - FG’, dtype: float64 Name: ‘ Nota Padronizada - CE’, dtype: float64 Name: ‘ Nota Padronizada - Organização Didático-Pedagógica’, dtype: float64 Name: ‘ Nota Padronizada - Infraestrutura e Instalações Físicas’, dtype: float64 Name: ‘ Nota Padronizada - Oportunidade de Ampliação da Formação’, dtype: float64 Name: ‘ CPC (Faixa)’, dtype: object

Returns:

pd.DataFrame

Return type:

A cleaned DataFrame.

Examples

>>> data = pd.DataFrame({'Ano': [2021, 2022, 2023], 'Value': [10, 20, 30], ' CPC (Faixa)': ['SC', 'A', 'B']})
>>> cleaned_data = dataframe_cleaner(data)
>>> cleaned_data.columns
Index(['Value', ' CPC (Faixa)'], dtype='object')
data_cleaner.nome_da_ies_formater(dataframe: DataFrame) DataFrame

Clean and preprocess a DataFrame, specifically the “Nome da IES” column.

Parameters:

(pd.DataFrame) (dataframe) –

Index:

RangeIndex

Columns:

Name: ‘Área de Avaliação’, dtype: object

Returns:

pd.DataFrame

Return type:

A cleaned DataFrame with the “Nome da IES” column modified.

Examples

>>> data = pd.DataFrame({'Nome da IES': ['university of abc', 'escola de matemática aplicada']})
>>> cleaned_data = nome_da_ies_formater(data)
>>> 'Nome da IES' in cleaned_data.columns
True
>>> cleaned_data['Nome da IES'].tolist()
['University Of Abc', 'Escola De Matemática Aplicada']