aibox.nlp.data.datasets.portuguese_narrative_essays

Dataset Portuguese Narrative Essays apresentado no PROPOR 2024.

Classes

DatasetPortugueseNarrativeEssays(...[, ...])

Portuguese Narrative Essays.

class aibox.nlp.data.datasets.portuguese_narrative_essays.DatasetPortugueseNarrativeEssays(target_competence: str, clean_tags: bool = True)[código-fonte]

Base: Dataset

Portuguese Narrative Essays.

Parâmetros:
  • target_competence (str) – competência (‘cohesion’, ‘thematic_coherence’, ‘formal_register’, ‘narrative_rhetorical_structure’).

  • clean_tags (bool) – se devem ser removidas as tags de anotação.

Essa classe apenas suporta splits (CV ou train/test) estratificados.

property competence: str

Competência target.

Retorna:

competência.

to_frame()[código-fonte]

Converte esse dataset para um DataFrame (cópia) com as colunas:

  1. text (str): textos;

  2. target (numérico): label;

O DataFrame pode ter colunas adicionais.

Retorna:

representação desse dataset como um DataFrame.

cv_splits(k: int, stratified: bool, seed: int) list[DataFrame][código-fonte]

Retorna splits para serem utilizados. Esse método particiona o dataset em k partes aleatórias de tamanho similar.

Parâmetros:
  • k (int) – quantidade de splits.

  • stratified (bool) – se os splits devem ser estratificados.

  • seed (int) – seed randômica para geração de splits. É garantido que uma mesma seed gere os mesmos splits.

Retorna:

Lista com k DataFrames.

Tipo de retorno:

list[DataFrame]

train_test_split(frac_train: float, stratified: bool, seed: int) tuple[DataFrame, DataFrame][código-fonte]

Obtém os conjuntos de treino e teste desse Dataset como DataFrames.

Parâmetros:
  • frac_train (float) – fração de amostras para treinamento.

  • stratified (bool) – se cada split deve ser estratificado.

  • seed (int) – seed randômica para geração de splits. É garantido que uma mesma seed gere os mesmos splits.

Retorna:

tupla (train, test).

Tipo de retorno:

tuple[DataFrame, DataFrame]

classmethod load_raw() DataFrame[código-fonte]

Carregamento dos dados crus do dataset. Nenhuma limpeza ou conversão de estrutura de colunas é realizada.

O objetivo desse método é permitir que o dataset seja carregado as-is sem escolha de competência ou outras limpezas.

Retorna:

Portuguese Narrative Essays.

Tipo de retorno:

DataFrame