aibox.nlp.data.datasets.essay_br

Essay-BR (versão original e estendida) com redações do Ensino Médio.

Classes

DatasetEssayBR(extended, target_competence)

Essay-BR original e estendido.

class aibox.nlp.data.datasets.essay_br.DatasetEssayBR(extended: bool, target_competence: str)[código-fonte]

Base: Dataset

Essay-BR original e estendido.

Parâmetros:
  • extended (bool) – se devemos utilizar a versão estendida.

  • target_competence (str) – competência (‘C1’, ‘C2’, ‘C3’, ‘C4’, ‘C5’ ou ‘score’).

As versões utilizadas pela biblioteca se encontram disponíveis nos repositórios originais do GitHub:

São aplicados alguns pós-processamentos visto que os dados originais possuem redações duplicadas e/ou faltantes.

Essa classe apenas suporta splits (CV ou train/test) estratificados.

property competence: str

Competência target.

Retorna:

competência.

property is_extended: bool

Se a versão carregada é estendida ou original.

Retorna:

versão estendida ou original.

to_frame()[código-fonte]

Converte esse dataset para um DataFrame (cópia) com as colunas:

  1. text (str): textos;

  2. target (numérico): label;

O DataFrame pode ter colunas adicionais.

Retorna:

representação desse dataset como um DataFrame.

cv_splits(k: int, stratified: bool, seed: int) list[DataFrame][código-fonte]

Retorna splits para serem utilizados. Esse método particiona o dataset em k partes aleatórias de tamanho similar.

Parâmetros:
  • k (int) – quantidade de splits.

  • stratified (bool) – se os splits devem ser estratificados.

  • seed (int) – seed randômica para geração de splits. É garantido que uma mesma seed gere os mesmos splits.

Retorna:

Lista com k DataFrames.

Tipo de retorno:

list[DataFrame]

train_test_split(frac_train: float, stratified: bool, seed: int) tuple[DataFrame, DataFrame][código-fonte]

Obtém os conjuntos de treino e teste desse Dataset como DataFrames.

Parâmetros:
  • frac_train (float) – fração de amostras para treinamento.

  • stratified (bool) – se cada split deve ser estratificado.

  • seed (int) – seed randômica para geração de splits. É garantido que uma mesma seed gere os mesmos splits.

Retorna:

tupla (train, test).

Tipo de retorno:

tuple[DataFrame, DataFrame]

classmethod load_raw(extended: bool) DataFrame[código-fonte]

Carregamento dos dados crus do dataset. Nenhuma limpeza ou conversão de estrutura de colunas é realizada.

O objetivo desse método é permitir que o dataset seja carregado as-is sem escolha de competência ou outras limpezas.

Parâmetros:

extended (bool) – se deve ser carregada a versão estendida do dataset.

Retorna:

Essay-BR versão original ou estendida.

Tipo de retorno:

DataFrame