aibox.nlp.data.datasets.portuguese_narrative_essays
Dataset Portuguese Narrative Essays apresentado no PROPOR 2024.
Classes
|
- class aibox.nlp.data.datasets.portuguese_narrative_essays.DatasetPortugueseNarrativeEssays(target_competence: str, clean_tags: bool = True)[código-fonte]
Base:
Dataset
- Parâmetros:
Essa classe apenas suporta splits (CV ou train/test) estratificados.
- to_frame()[código-fonte]
Converte esse dataset para um DataFrame (cópia) com as colunas:
text (str): textos;
target (numérico): label;
O DataFrame pode ter colunas adicionais.
- Retorna:
representação desse dataset como um DataFrame.
- cv_splits(k: int, stratified: bool, seed: int) list[DataFrame] [código-fonte]
Retorna splits para serem utilizados. Esse método particiona o dataset em k partes aleatórias de tamanho similar.
- train_test_split(frac_train: float, stratified: bool, seed: int) tuple[DataFrame, DataFrame] [código-fonte]
Obtém os conjuntos de treino e teste desse Dataset como DataFrames.
- Parâmetros:
- Retorna:
tupla (train, test).
- Tipo de retorno:
- classmethod load_raw() DataFrame [código-fonte]
Carregamento dos dados crus do dataset. Nenhuma limpeza ou conversão de estrutura de colunas é realizada.
O objetivo desse método é permitir que o dataset seja carregado as-is sem escolha de competência ou outras limpezas.
- Retorna:
Portuguese Narrative Essays.
- Tipo de retorno: