aibox.nlp.data.datasets.utils

Utilidades para criação de Datasets.

Functions

splits(df, k, seed)

Retorna k splits para o dataset recebido.

stratified_splits_clf(df, k, seed)

Retorna k splits estratitifcados para o dataset recebido.

train_test(df, frac_train, seed)

Retorna uma tupla com os DataFrames de treino e teste para o dataset de classificação recebido.

train_test_clf(df, frac_train, seed)

Retorna uma tupla com os DataFrames de treino e teste para o dataset de classificação recebido.

aibox.nlp.data.datasets.utils.train_test_clf(df: DataFrame, frac_train: float, seed: int) tuple[DataFrame, DataFrame][código-fonte]

Retorna uma tupla com os DataFrames de treino e teste para o dataset de classificação recebido. Ambos splits são estratificados com relação a distribuição das classes.

Parâmetros:
  • df (DataFrame) – dataset.

  • frac_train (float) – porcentagem de amostras para treino.

  • seed (int) – seed randômica para geração dos splits.

Retorna:

df_train, df_test

Tipo de retorno:

tuple[DataFrame, DataFrame]

aibox.nlp.data.datasets.utils.train_test(df: DataFrame, frac_train: float, seed: int) tuple[DataFrame, DataFrame][código-fonte]

Retorna uma tupla com os DataFrames de treino e teste para o dataset de classificação recebido.

Parâmetros:
  • df (DataFrame) – dataset.

  • frac_train (float) – porcentagem de amostras para treino.

  • seed (int) – seed randômica para geração dos splits.

Retorna:

df_train, df_test

Tipo de retorno:

tuple[DataFrame, DataFrame]

aibox.nlp.data.datasets.utils.stratified_splits_clf(df: DataFrame, k: int, seed: int) list[DataFrame][código-fonte]

Retorna k splits estratitifcados para o dataset recebido.

Parâmetros:
  • df (DataFrame) – dataset.

  • k (int) – quantidade de splits.

  • seed (int) – seed randômica.

Retorna:

splits.

Tipo de retorno:

list[DataFrame]

aibox.nlp.data.datasets.utils.splits(df: DataFrame, k: int, seed: int) list[DataFrame][código-fonte]

Retorna k splits para o dataset recebido.

Parâmetros:
  • df (DataFrame) – dataset.

  • k (int) – quantidade de splits.

  • seed (int) – seed randômica.

Retorna:

splits.

Tipo de retorno:

list[DataFrame]