aibox.nlp.features.portuguese.cohmetrix

Características do CohMetrix-BR.

Classes

`CohMetrixExtractor`()	Extrator de características do CohMetrix-BR.
`CohMetrixFeatures`(despc, despc2, despl, ...)	Essa classe possui todas as características disponibilizadas pelo CohMetrix BR.

class aibox.nlp.features.portuguese.cohmetrix.CohMetrixFeatures(despc: float, despc2: float, despl: float, despld: float, dessc: float, dessl: float, dessld: float, deswc: float, deswlsy: float, deswlsyd: float, deswllt: float, deswlltd: float, crfno1: float, crfao1: float, crfso1: float, crfnoa: float, crfaoa: float, crfsoa: float, crfcwo1: float, crfcwo1d: float, crfcwoa: float, crfcwoad: float, ldttrc: float, ldttra: float, ldmtlda: float, ldvocda: float, cncadc: float, cncadd: float, cncall: float, cncalter: float, cnccaus: float, cnccomp: float, cncconce: float, cncconclu: float, cnccondi: float, cncconfor: float, cncconse: float, cncexpli: float, cncfinal: float, cncinte: float, cnclogic: float, cncneg: float, cncpos: float, cncprop: float, cnctemp: float, smintep: float, smintep_sentence: float, sminter: float, smcauswn: float, synle: float, synnp: float, synmedpos: float, synmedlem: float, synmedwrd: float, synstruta: float, synstrutt: float, drnp: float, drvp: float, drap: float, drpp: float, drpval: float, drneg: float, drgerund: float, drinf: float, wrdnoun: float, wrdverb: float, wrdadj: float, wrdadv: float, wrdpro: float, wrdprp1s: float, wrdprp1p: float, wrdprp2: float, wrdprp2s: float, wrdprp2p: float, wrdprp3s: float, wrdprp3p: float, wrdfrqc: float, wrdfrqa: float, wrdfrqmc: float, wrdaoac: float, wrdfamc: float, wrdcncc: float, wrdimgc: float, wrdmeac: float, rdfre: float, rdfkgl: float, rdl2: float)[código-fonte]

Base: DataclassFeatureSet

Essa classe possui todas as características disponibilizadas pelo CohMetrix BR.

Para uma descrição de cada característica checar as referências:

[1]: Camelo, R., Justino, S., & Mello, R. F. L. de. (2020). Coh-Metrix PT-BR: Uma API web de análise textual para a educação. In Anais Estendidos do IX Congresso Brasileiro de Informática na Educação (CBIE 2020) (pp. 179–186). Anais Estendidos do Congresso Brasileiro de Informática na Educação. Sociedade Brasileira de Computação.

Parâmetros:

despc (float)
despc2 (float)
despl (float)
despld (float)
dessc (float)
dessl (float)
dessld (float)
deswc (float)
deswlsy (float)
deswlsyd (float)
deswllt (float)
deswlltd (float)
crfno1 (float)
crfao1 (float)
crfso1 (float)
crfnoa (float)
crfaoa (float)
crfsoa (float)
crfcwo1 (float)
crfcwo1d (float)
crfcwoa (float)
crfcwoad (float)
ldttrc (float)
ldttra (float)
ldmtlda (float)
ldvocda (float)
cncadc (float)
cncadd (float)
cncall (float)
cncalter (float)
cnccaus (float)
cnccomp (float)
cncconce (float)
cncconclu (float)
cnccondi (float)
cncconfor (float)
cncconse (float)
cncexpli (float)
cncfinal (float)
cncinte (float)
cnclogic (float)
cncneg (float)
cncpos (float)
cncprop (float)
cnctemp (float)
smintep (float)
smintep_sentence (float)
sminter (float)
smcauswn (float)
synle (float)
synnp (float)
synmedpos (float)
synmedlem (float)
synmedwrd (float)
synstruta (float)
synstrutt (float)
drnp (float)
drvp (float)
drap (float)
drpp (float)
drpval (float)
drneg (float)
drgerund (float)
drinf (float)
wrdnoun (float)
wrdverb (float)
wrdadj (float)
wrdadv (float)
wrdpro (float)
wrdprp1s (float)
wrdprp1p (float)
wrdprp2 (float)
wrdprp2s (float)
wrdprp2p (float)
wrdprp3s (float)
wrdprp3p (float)
wrdfrqc (float)
wrdfrqa (float)
wrdfrqmc (float)
wrdaoac (float)
wrdfamc (float)
wrdcncc (float)
wrdimgc (float)
wrdmeac (float)
rdfre (float)
rdfkgl (float)
rdl2 (float)

as_dict() → dict[str, float]

Retorna os valores das características desse conjunto para um dado texto.

Retorna:: características contidas nesse FeatureSet para um dado texto.
Tipo de retorno:: dict[str, float]

as_numpy() → ndarray[float32]

Retorna as características como uma NumPy array. Os valores de cada índice são correspondentes às características na ordem de names().

Retorna:: array de np.float32 representando os valores das características.
Tipo de retorno:: ndarray[float32]

as_tensor(device: str | None = None) → Tensor

Retorna as características como um tensor. Os valores de cada índice são correspondentes às características na ordem de names().

Parâmetros:: device (str, opcional) – dispositivo de armazenamento.
Retorna:: Tensor do torch representado os valores das características.
Tipo de retorno:: Tensor

names() → list[str]

Retorna os nomes das características em ordem lexicográfica. Todos os outros métodos apresentam os valores conforme essa ordem.

Retorna:: nome das características desse conjunto.
Tipo de retorno:: list[str]

class aibox.nlp.features.portuguese.cohmetrix.CohMetrixExtractor[código-fonte]

Base: FeatureExtractor

Extrator de características do CohMetrix-BR.

Exemplo de uso em FeatureExtractor

property feature_set: type[CohMetrixFeatures]

Retorna a classe que contém o conjunto de características retornado por esse extrator.

Retorna:: classe do conjunto de características retornado por esse extrator.

extract(text: str, **kwargs) → CohMetrixFeatures[código-fonte]

Realiza a extração de características para o texto de entrada.

Parâmetros:

text (str) – texto.
**kwargs – argumentos extras que pode ser utilizados por alguns extratores para controlar o processo de extração.

Retorna:

características para o texto de entrada.

Tipo de retorno:

CohMetrixFeatures

vectorize(text: str | list[str] | ndarray[str_], vector_type: str = 'numpy', device: str | None = None, **kwargs) → ndarray | Tensor

Método para vetorização de textos. A vetorização de múltiplos textos é realizada de forma paralela sempre que possível.

Aceita os campos n_workers (default=`min(4, cpu_count)`) e show_bar (default=`true`) quando array-like de string. Demais parâmetros são passados para _vectorize().

n_workers é utilizado quando a implementação utiliza multiprocessing. Caso n_workers <= 1, um for.

Parâmetros:

text (str | list[str] | ndarray[str_]) – texto ou textos de entrada.
vector_type (str, opcional) – tipo do vetor de saída (‘numpy ou ‘torch’).
device (str, opcional.) – dispositivo para armazenamento do tensor Torch. Padrão é CPU.
**kwargs – parâmetros extras que podem ser utilizados por alguns vetorizadores para controlar o processo de vetorização.

Retorna:

representação numérica do texto.

Tipo de retorno:

ndarray | Tensor