aibox.nlp.data.datasets.portuguese_narrative_essays

Dataset Portuguese Narrative Essays apresentado no PROPOR 2024.

Classes

DatasetPortugueseNarrativeEssays(...[, ...])

class aibox.nlp.data.datasets.portuguese_narrative_essays.DatasetPortugueseNarrativeEssays(target_competence: str, clean_tags: bool = True)[código-fonte]

Base: Dataset

Portuguese Narrative Essays.

Parâmetros:

target_competence (str) – competência (‘cohesion’, ‘thematic_coherence’, ‘formal_register’, ‘narrative_rhetorical_structure’).
clean_tags (bool) – se devem ser removidas as tags de anotação.

Essa classe apenas suporta splits (CV ou train/test) estratificados.

property competence: str

Competência target.

Retorna:: competência.

to_frame()[código-fonte]

Converte esse dataset para um DataFrame (cópia) com as colunas:

text (str): textos;

target (numérico): label;

O DataFrame pode ter colunas adicionais.

Retorna:: representação desse dataset como um DataFrame.

cv_splits(k: int, stratified: bool, seed: int) → list[DataFrame][código-fonte]

Retorna splits para serem utilizados. Esse método particiona o dataset em k partes aleatórias de tamanho similar.

Parâmetros:

k (int) – quantidade de splits.
stratified (bool) – se os splits devem ser estratificados.
seed (int) – seed randômica para geração de splits. É garantido que uma mesma seed gere os mesmos splits.

Retorna:

Lista com k DataFrames.

Tipo de retorno:

list[DataFrame]

train_test_split(frac_train: float, stratified: bool, seed: int) → tuple[DataFrame, DataFrame][código-fonte]

Obtém os conjuntos de treino e teste desse Dataset como DataFrames.

Parâmetros:

frac_train (float) – fração de amostras para treinamento.
stratified (bool) – se cada split deve ser estratificado.
seed (int) – seed randômica para geração de splits. É garantido que uma mesma seed gere os mesmos splits.

Retorna:

tupla (train, test).

Tipo de retorno:

tuple[DataFrame, DataFrame]

classmethod load_raw() → DataFrame[código-fonte]

Carregamento dos dados crus do dataset. Nenhuma limpeza ou conversão de estrutura de colunas é realizada.

O objetivo desse método é permitir que o dataset seja carregado as-is sem escolha de competência ou outras limpezas.

Retorna:: Portuguese Narrative Essays.
Tipo de retorno:: DataFrame