aibox.nlp.data.datasets.essay_br

Essay-BR (versão original e estendida) com redações do Ensino Médio.

Classes

DatasetEssayBR(extended, target_competence)

Essay-BR original e estendido.

class aibox.nlp.data.datasets.essay_br.DatasetEssayBR(extended: bool, target_competence: str)[código-fonte]

Base: Dataset

Essay-BR original e estendido.

Parâmetros:

extended (bool) – se devemos utilizar a versão estendida.
target_competence (str) – competência (‘C1’, ‘C2’, ‘C3’, ‘C4’, ‘C5’ ou ‘score’).

As versões utilizadas pela biblioteca se encontram disponíveis nos repositórios originais do GitHub:

https://github.com/rafaelanchieta/essay/tree/master/essay-br

Commit: da35364a0e213310ce83e55a613fbaa58d134bd3

https://github.com/lplnufpi/essay-br/tree/main/extended-corpus

Commit: fb6391a79cbb12dff877eb442c2a31caa7f00c77

São aplicados alguns pós-processamentos visto que os dados originais possuem redações duplicadas e/ou faltantes.

Essa classe apenas suporta splits (CV ou train/test) estratificados.

property competence: str

Competência target.

Retorna:: competência.

property is_extended: bool

Se a versão carregada é estendida ou original.

Retorna:: versão estendida ou original.

to_frame()[código-fonte]

Converte esse dataset para um DataFrame (cópia) com as colunas:

text (str): textos;

target (numérico): label;

O DataFrame pode ter colunas adicionais.

Retorna:: representação desse dataset como um DataFrame.

cv_splits(k: int, stratified: bool, seed: int) → list[DataFrame][código-fonte]

Retorna splits para serem utilizados. Esse método particiona o dataset em k partes aleatórias de tamanho similar.

Parâmetros:

k (int) – quantidade de splits.
stratified (bool) – se os splits devem ser estratificados.
seed (int) – seed randômica para geração de splits. É garantido que uma mesma seed gere os mesmos splits.

Retorna:

Lista com k DataFrames.

Tipo de retorno:

list[DataFrame]

train_test_split(frac_train: float, stratified: bool, seed: int) → tuple[DataFrame, DataFrame][código-fonte]

Obtém os conjuntos de treino e teste desse Dataset como DataFrames.

Parâmetros:

frac_train (float) – fração de amostras para treinamento.
stratified (bool) – se cada split deve ser estratificado.
seed (int) – seed randômica para geração de splits. É garantido que uma mesma seed gere os mesmos splits.

Retorna:

tupla (train, test).

Tipo de retorno:

tuple[DataFrame, DataFrame]

classmethod load_raw(extended: bool) → DataFrame[código-fonte]

Carregamento dos dados crus do dataset. Nenhuma limpeza ou conversão de estrutura de colunas é realizada.

O objetivo desse método é permitir que o dataset seja carregado as-is sem escolha de competência ou outras limpezas.

Parâmetros:: extended (bool) – se deve ser carregada a versão estendida do dataset.
Retorna:: Essay-BR versão original ou estendida.
Tipo de retorno:: DataFrame