aibox.nlp.data.datasets.essay_br
Essay-BR (versão original e estendida) com redações do Ensino Médio.
Classes
|
Essay-BR original e estendido. |
- class aibox.nlp.data.datasets.essay_br.DatasetEssayBR(extended: bool, target_competence: str)[código-fonte]
Base:
Dataset
Essay-BR original e estendido.
- Parâmetros:
As versões utilizadas pela biblioteca se encontram disponíveis nos repositórios originais do GitHub:
- https://github.com/rafaelanchieta/essay/tree/master/essay-br
Commit: da35364a0e213310ce83e55a613fbaa58d134bd3
- https://github.com/lplnufpi/essay-br/tree/main/extended-corpus
Commit: fb6391a79cbb12dff877eb442c2a31caa7f00c77
São aplicados alguns pós-processamentos visto que os dados originais possuem redações duplicadas e/ou faltantes.
Essa classe apenas suporta splits (CV ou train/test) estratificados.
- property is_extended: bool
Se a versão carregada é estendida ou original.
- Retorna:
versão estendida ou original.
- to_frame()[código-fonte]
Converte esse dataset para um DataFrame (cópia) com as colunas:
text (str): textos;
target (numérico): label;
O DataFrame pode ter colunas adicionais.
- Retorna:
representação desse dataset como um DataFrame.
- cv_splits(k: int, stratified: bool, seed: int) list[DataFrame] [código-fonte]
Retorna splits para serem utilizados. Esse método particiona o dataset em k partes aleatórias de tamanho similar.
- train_test_split(frac_train: float, stratified: bool, seed: int) tuple[DataFrame, DataFrame] [código-fonte]
Obtém os conjuntos de treino e teste desse Dataset como DataFrames.
- Parâmetros:
- Retorna:
tupla (train, test).
- Tipo de retorno:
- classmethod load_raw(extended: bool) DataFrame [código-fonte]
Carregamento dos dados crus do dataset. Nenhuma limpeza ou conversão de estrutura de colunas é realizada.
O objetivo desse método é permitir que o dataset seja carregado as-is sem escolha de competência ou outras limpezas.