aibox.nlp.core.pipeline
Interface básica para pipelines.
Classes
|
Essa é a interface básica para uma pipeline. |
- class aibox.nlp.core.pipeline.Pipeline(vectorizer: Vectorizer, estimator: Estimator, postprocessing: Callable[[ndarray], ndarray] | None = None, name: str | None = None)[código-fonte]
Base:
object
Essa é a interface básica para uma pipeline.
- Parâmetros:
vectorizer (Vectorizer) – estratégia de vetorização dessa pipeline. Pode ser treinável ou não.
estimator (Estimator) – estimador dessa pipeline.
postprocessing (Callable[[np.ndarray], np.ndarray], opcional) – estratégia de pós-processamento das saídas do estimador. Valor padrão é identidade (i.e., no-op). A estratégia de pós-processamento deve respeitar o shape (n_samples,) como entrada e saída. Dtypes podem ser distintos.
name (str, opcional) – nome dessa pipeline. Quando não passado, um nome automático é gerado com base nos demais argumentos.
Todas as etapas de uma pipeline são sequenciais, isto é, a saída de uma etapa é entrada para a próxima.
- Toda pipeline é composta por 3 componentes:
Vetorizador
Estimador
Pós-processamento
Quando o método
fit()
é invocado em uma pipeline, o seguinte processo ocorre para cada componente treinável T:Treinamos T fazendo T.fit(X, y);
Calculamos o novo valor de X = T.predict(X);
Passamos o novo X e o mesmo y para a próxima etapa treinável;
- predict(X: list[str] | ndarray[str_], **kwargs) ndarray [código-fonte]
Realiza a predição utilizando os parâmetros atuais da pipeline.
O comportamento desse método não é definido caso seja chamado antes do treinamento (i.e.,
fit()
).
- fit(X: list[str] | ndarray[str_], y: list[int] | list[float] | ndarray[int32] | ndarray[float32] | Tensor, **kwargs) None [código-fonte]
Realiza o treinamento da pipeline utilizando as entradas X com os targets y.
- property vectorizer: Vectorizer
Retorna o vetorizador dessa pipeline.
- Retorna:
vetorizador dessa pipeline.
- Tipo de retorno:
- property estimator: Estimator
Retorna o estimador utilizado nessa pipeline.
- Retorna:
estimador dessa pipeline.
- postprocessing(y: ndarray) ndarray [código-fonte]
Método de pós-processamento da pipeline.
- Parâmetros:
y (np.ndarray) – array-like com formato (n_samples,).
- Retorna:
array com mesmo formato após função de pós-processamento.
- Tipo de retorno: