aibox.nlp.features.portuguese.liwc
Características do LIWC.
Classes
|
Extrator de características relacionadas ao uso de conectivos. |
|
Características baseadas no dicionário LIWC. |
- class aibox.nlp.features.portuguese.liwc.LiwcFeatures(funct: float, pronoun: float, ppron: float, i: float, we: float, you: float, shehe: float, they: float, ipron: float, article: float, verb: float, auxverb: float, past: float, present: float, future: float, adverb: float, preps: float, conj: float, negate: float, quant: float, number: float, swear: float, social: float, family: float, friend: float, humans: float, affect: float, posemo: float, negemo: float, anx: float, anger: float, sad: float, cogmech: float, insight: float, cause: float, discrep: float, tentat: float, certain: float, inhib: float, incl: float, excl: float, percept: float, see: float, hear: float, feel: float, bio: float, body: float, health: float, sexual: float, ingest: float, relativ: float, motion: float, space: float, time: float, work: float, achieve: float, leisure: float, home: float, money: float, relig: float, death: float, assent: float, nonfl: float, filler: float)[código-fonte]
Base:
DataclassFeatureSet
Características baseadas no dicionário LIWC.
- Parâmetros:
funct (float)
pronoun (float)
ppron (float)
i (float)
we (float)
you (float)
shehe (float)
they (float)
ipron (float)
article (float)
verb (float)
auxverb (float)
past (float)
present (float)
future (float)
adverb (float)
preps (float)
conj (float)
negate (float)
quant (float)
number (float)
swear (float)
social (float)
family (float)
friend (float)
humans (float)
affect (float)
posemo (float)
negemo (float)
anx (float)
anger (float)
sad (float)
cogmech (float)
insight (float)
cause (float)
discrep (float)
tentat (float)
certain (float)
inhib (float)
incl (float)
excl (float)
percept (float)
see (float)
hear (float)
feel (float)
bio (float)
body (float)
health (float)
sexual (float)
ingest (float)
relativ (float)
motion (float)
space (float)
time (float)
work (float)
achieve (float)
leisure (float)
home (float)
money (float)
relig (float)
death (float)
assent (float)
nonfl (float)
filler (float)
- as_dict() dict[str, float]
Retorna os valores das características desse conjunto para um dado texto.
- as_numpy() ndarray[float32]
Retorna as características como uma NumPy array. Os valores de cada índice são correspondentes às características na ordem de
names()
.- Retorna:
array de np.float32 representando os valores das características.
- Tipo de retorno:
ndarray[float32]
- class aibox.nlp.features.portuguese.liwc.LiwcExtractor(nlp: Language | None = None)[código-fonte]
Base:
FeatureExtractor
Extrator de características relacionadas ao uso de conectivos.
- Parâmetros:
nlp (Language) – modelo do spaCy a ser utilizado. Defaults to “pt_core_news_md”.
Exemplo de uso em
FeatureExtractor
- property feature_set: type[LiwcFeatures]
Retorna a classe que contém o conjunto de características retornado por esse extrator.
- Retorna:
classe do conjunto de características retornado por esse extrator.
- extract(text: str, **kwargs) LiwcFeatures [código-fonte]
Realiza a extração de características para o texto de entrada.
- Parâmetros:
text (str) – texto.
**kwargs – argumentos extras que pode ser utilizados por alguns extratores para controlar o processo de extração.
- Retorna:
características para o texto de entrada.
- Tipo de retorno:
- vectorize(text: str | list[str] | ndarray[str_], vector_type: str = 'numpy', device: str | None = None, **kwargs) ndarray | Tensor
Método para vetorização de textos. A vetorização de múltiplos textos é realizada de forma paralela sempre que possível.
Aceita os campos n_workers (default=`min(4, cpu_count)`) e show_bar (default=`true`) quando array-like de string. Demais parâmetros são passados para
_vectorize()
.n_workers é utilizado quando a implementação utiliza
multiprocessing
. Caso n_workers <= 1, um for.- Parâmetros:
text (str | list[str] | ndarray[str_]) – texto ou textos de entrada.
vector_type (str, opcional) – tipo do vetor de saída (‘numpy ou ‘torch’).
device (str, opcional.) – dispositivo para armazenamento do tensor Torch. Padrão é CPU.
**kwargs – parâmetros extras que podem ser utilizados por alguns vetorizadores para controlar o processo de vetorização.
- Retorna:
representação numérica do texto.
- Tipo de retorno: