aibox.nlp.core.dataset

Interface básica para datasets.

Classes

Dataset()

Classe abstrata representa um Dataset para classificação ou regressão.

class aibox.nlp.core.dataset.Dataset[código-fonte]

Base: ABC

Classe abstrata representa um Dataset para classificação ou regressão. Essa classe supõe que os dados passados já foram limpos e/ou processados.

Classes concretas definem construtores bem como métodos adicionais.

abstract to_frame() DataFrame[código-fonte]

Converte esse dataset para um DataFrame (cópia) com as colunas:

  1. text (str): textos;

  2. target (numérico): label;

O DataFrame pode ter colunas adicionais.

Retorna:

representação desse dataset como um DataFrame.

Tipo de retorno:

DataFrame

abstract cv_splits(k: int, stratified: bool, seed: int) list[DataFrame][código-fonte]

Retorna splits para serem utilizados. Esse método particiona o dataset em k partes aleatórias de tamanho similar.

Parâmetros:
  • k (int) – quantidade de splits.

  • stratified (bool) – se os splits devem ser estratificados.

  • seed (int) – seed randômica para geração de splits. É garantido que uma mesma seed gere os mesmos splits.

Retorna:

Lista com k DataFrames.

Tipo de retorno:

list[DataFrame]

abstract train_test_split(frac_train: float, stratified: bool, seed: int) tuple[DataFrame, DataFrame][código-fonte]

Obtém os conjuntos de treino e teste desse Dataset como DataFrames.

Parâmetros:
  • frac_train (float) – fração de amostras para treinamento.

  • stratified (bool) – se cada split deve ser estratificado.

  • seed (int) – seed randômica para geração de splits. É garantido que uma mesma seed gere os mesmos splits.

Retorna:

tupla (train, test).

Tipo de retorno:

tuple[DataFrame, DataFrame]