Module data_cleaner.py¶
This module contains a set of functions for cleaning and preprocessing the data used to create the visualizations.
- data_cleaner.add_state_name_to_data(geodataframe: GeoDataFrame) GeoDataFrame ¶
Add state names to a GeoDataFrame containing Brazil map data.
- Parameters:
(gpd.GeoDataFrame) (geodataframe) – The original GeoDataFrame with unmodified Brazil map data.
- Returns:
A GeoDataFrame with improved data and a new “Sigla da UF” column.
- Return type:
gpd.GeoDataFrame
Examples
>>> gdf = gpd.GeoDataFrame({'codarea': [12, 27, 16], 'geometry': [None, None, None]}) >>> gdf_with_state = add_state_name_to_data(gdf) >>> 'Sigla da UF ' in gdf_with_state.columns True >>> gdf_with_state['Sigla da UF '].tolist() ['AC', 'AL', 'AP']
- data_cleaner.area_de_avaliacao_cleaner(dataframe: DataFrame) DataFrame ¶
Clean and preprocess a DataFrame, specifically the “Área de Avaliação” column.
- Parameters:
input (dataframe (pd.DataFrame): The original DataFrame with the 'Área de Avaliação' column to be cleaned.) –
- Index:
RangeIndex
- Columns:
Name: ‘Área de Avaliação’, dtype: object
- Returns:
A cleaned DataFrame with the “Área de Avaliação” column modified.
- Return type:
pandas.DataFrame
Examples
>>> data = pd.DataFrame({'Área de Avaliação': ['Science (Physics)', 'arts (music)']}) >>> cleaned_data = area_de_avaliacao_cleaner(data) >>> 'Área de Avaliação' in cleaned_data.columns True >>> cleaned_data['Área de Avaliação'].tolist() ['Science ', 'Arts ']
- data_cleaner.area_de_avaliacao_long(dataframe: DataFrame) DataFrame ¶
Modify the names of some courses to make them shorter in a DataFrame.
- Parameters:
(pd.DataFrame) (df) – The DataFrame used for modification.
- Returns:
A DataFrame with the changed course names.
- Return type:
pd.DataFrame
Examples
>>> data = pd.DataFrame({'Área de Avaliação': ['Tecnologia Em Redes De Computadores', 'Tecnologia Em Análise E Desenvolvimento De Sistemas', 'Other']}) >>> modified_data = area_de_avaliacao_long(data) >>> modified_data['Área de Avaliação'].tolist() ['Redes De Computadores', 'Desenvolvimento De Sistemas', 'Other']
- data_cleaner.dataframe_cleaner(dataframe: DataFrame) DataFrame ¶
Clean and preprocess the ‘resultados_cpc’ DataFrame.
This functions checks if the dataframe have all needed columns to the analysis and graph making process, it also removes all the useless rows.
- Parameters:
input (dataframe (pandas.DataFrame)) –
- Index:
RangeIndex
- Columns:
Name: ‘Área de Avaliação’, dtype: object Name: ‘Sigla da UF** ‘, dtype: object Name: ‘ Nº de Concluintes Inscritos’, dtype: int64 Name: ‘ Nº de Concluintes Participantes’, dtype: int64 Name: ‘ Nota Padronizada - FG’, dtype: float64 Name: ‘ Nota Padronizada - CE’, dtype: float64 Name: ‘ Nota Padronizada - Organização Didático-Pedagógica’, dtype: float64 Name: ‘ Nota Padronizada - Infraestrutura e Instalações Físicas’, dtype: float64 Name: ‘ Nota Padronizada - Oportunidade de Ampliação da Formação’, dtype: float64 Name: ‘ CPC (Faixa)’, dtype: object
- Returns:
pd.DataFrame
- Return type:
A cleaned DataFrame.
Examples
>>> data = pd.DataFrame({'Ano': [2021, 2022, 2023], 'Value': [10, 20, 30], ' CPC (Faixa)': ['SC', 'A', 'B']}) >>> cleaned_data = dataframe_cleaner(data) >>> cleaned_data.columns Index(['Value', ' CPC (Faixa)'], dtype='object')
- data_cleaner.nome_da_ies_formater(dataframe: DataFrame) DataFrame ¶
Clean and preprocess a DataFrame, specifically the “Nome da IES” column.
- Parameters:
(pd.DataFrame) (dataframe) –
- Index:
RangeIndex
- Columns:
Name: ‘Área de Avaliação’, dtype: object
- Returns:
pd.DataFrame
- Return type:
A cleaned DataFrame with the “Nome da IES” column modified.
Examples
>>> data = pd.DataFrame({'Nome da IES': ['university of abc', 'escola de matemática aplicada']}) >>> cleaned_data = nome_da_ies_formater(data) >>> 'Nome da IES' in cleaned_data.columns True >>> cleaned_data['Nome da IES'].tolist() ['University Of Abc', 'Escola De Matemática Aplicada']