aibox.nlp.data.datasets.utils

Utilidades para criação de Datasets.

Functions

`splits`(df, k, seed)	Retorna k splits para o dataset recebido.
`stratified_splits_clf`(df, k, seed)	Retorna k splits estratitifcados para o dataset recebido.
`train_test`(df, frac_train, seed)	Retorna uma tupla com os DataFrames de treino e teste para o dataset de classificação recebido.
`train_test_clf`(df, frac_train, seed)	Retorna uma tupla com os DataFrames de treino e teste para o dataset de classificação recebido.

aibox.nlp.data.datasets.utils.train_test_clf(df: DataFrame, frac_train: float, seed: int) → tuple[DataFrame, DataFrame][código-fonte]

Retorna uma tupla com os DataFrames de treino e teste para o dataset de classificação recebido. Ambos splits são estratificados com relação a distribuição das classes.

Parâmetros:

df (DataFrame) – dataset.
frac_train (float) – porcentagem de amostras para treino.
seed (int) – seed randômica para geração dos splits.

Retorna:

df_train, df_test

Tipo de retorno:

tuple[DataFrame, DataFrame]

aibox.nlp.data.datasets.utils.train_test(df: DataFrame, frac_train: float, seed: int) → tuple[DataFrame, DataFrame][código-fonte]

Retorna uma tupla com os DataFrames de treino e teste para o dataset de classificação recebido.

Parâmetros:

df (DataFrame) – dataset.
frac_train (float) – porcentagem de amostras para treino.
seed (int) – seed randômica para geração dos splits.

Retorna:

df_train, df_test

Tipo de retorno:

tuple[DataFrame, DataFrame]

aibox.nlp.data.datasets.utils.stratified_splits_clf(df: DataFrame, k: int, seed: int) → list[DataFrame][código-fonte]

Retorna k splits estratitifcados para o dataset recebido.

Parâmetros:

df (DataFrame) – dataset.
k (int) – quantidade de splits.
seed (int) – seed randômica.

Retorna:

splits.

Tipo de retorno:

list[DataFrame]

aibox.nlp.data.datasets.utils.splits(df: DataFrame, k: int, seed: int) → list[DataFrame][código-fonte]

Retorna k splits para o dataset recebido.

Parâmetros:

df (DataFrame) – dataset.
k (int) – quantidade de splits.
seed (int) – seed randômica.

Retorna:

splits.

Tipo de retorno:

list[DataFrame]