TEXTOS QUENTES

018– IBCI - MODELOS DE ANÁLISE DISCRIMINANTE MÚLTIPLA E CLUSTERIZAÇÃO ou AGRUPAMENTO:
ELEMENTOS FUNDAMENTAIS

Por Istvan Kasznar - PhD.  
istvan@ibci.com.br

Bento Mario Lages Gonçalves, MSc
Consultor Sênior da IBCI

__Esta seção documental visa apresentar as mais importantes relações e especificações técnicas que poderão ser utilizadas, para a avaliação e a classificação de dados variados, como por exemplo os oriundos de municípios e sua tipologia .

__As relações que seguem mostram sob um ponto de vista estritamente técnico o arcabouço e a estrutura modelar que se utiliza para calcular as diversas posições às quais podem vincular-se variáveis e gerar múltiplas regressões requisitadas em casos de se desejar estabelecer elos e vínculos entre variáveis dependentes e independentes.

__Serão expostas nesta etapa do trabalho duas metodologias complementares de cálculo, que visam gerar os resultados, a sistematização de informações correlacionáveis e os coeficientes pretendidos, a saber:

ADM - Conhecido como o modelo da Análise Discriminantes Múltipla.

CLU - Conhecido como o modelo de Clustering ou de agrupamento.


I - ANALISE DISCRIMINANTE MÚLTIPLA - ADM

__A função discriminante serve para que se definam e determinem variáveis discriminantes entre dois ou mais grupos de dados.

__Eis porque se parte para um rigoroso e longo processo de identificação, análise qualitativa e quantitativa, e seleção operacional básica de dados. Poe exemplo, uma que estude os dados dos 5.507 municípios do Brasil, ou que já previamente tenha selecionado uma amostra representativa de unidades municipais. É usual fazer-se um corte, e estabelecer uma afirmativa do tipo “analise-se o grupo dos 1.000 maiores municípios pelo critério da população total concentrada por município”. Ou definir-se outro espaço analítico, como “os maiores municípios são os que auferem mais renda, logo, é preciso ordená-los pelo PIB – Produto Interno Bruto que eles têm, do maior ao menor”. Ou ainda afirmar que uma variável isolada não responde bem a um critério de dimensão, logo o melhor é considerar que “os maiores municípios são os que apresentam a maior população; a maior renda; o maior volume de crédito concedido; o maior volume de depósitos bancários; o maior volume de impostos pagos; o maior número de empresas; o maior faturamento; o maior número de empresários; o maior número de empregados”, e assim por diante.

__Do ponto de vista estritamente estatístico, a noção de “maior” ou de “menor” envolve questões bem definidas. Permite uma ordenação técnica, precisa e fria.

__Contudo, em economia é preciso ir além de classificações que dão rankeamentos, ordenando do maior ao menor variáveis que parecem indicar algum poder econômico.

__O Brasil possui uma das cinco piores distribuições de renda do mundo. Esta situação perdura há cinco séculos.

__Portanto, se, como é o caso, os 10% mais ricos da população concentram 47% da renda, existe uma hiperconcentração de renda e a média estatística de nada serve. A média pouco indica a verdadeira diáspora à qual é submetida uma população majoritariamente miserável.

__Nesse caso, pode fazer sentido “discriminar” entre os dados, criando-se segmentos e categorias de dados, assim como índices prévios, que então são submetidos a uma classificação.

__Isto significa que não necessariamente “quem é o maior é o melhor”. O oposto pode ser assaz verdadeiro, contudo: “o menor num dado, pode ser o melhor em muitos outros”. É preciso analisar mais adequadamente taxas de participação, correlações e distribuições, dada uma série e um conjunto de dados.

__Portanto, isoladamente, o que é relevante não é quem é o maior, e tem mais”. O que importa é “quem tendo mais, distribui melhor, e satisfaz mais”.

__O Brasil se orgulhava na década de 1980 em ser a “8@ maior economia do mundo”. Pautado numa única variável, o Produto Interno Bruto, o país se esqueceu que “uma andorinha só, não faz verão”. Ou seja, que uma variável isolada, fora de um contexto maior, não possui valor maior.

Em 2003, anunciou-se que o Brasil já possui a “15@ posição em relação ao PIB”. Isto é, o país regrediu. No cenário das nações, foi para trás.

__Pode haver indicadores até muito bons. Todavia, o indicador maior, o mais visível, o que espelha o volume de produção, esse está se esvaindo.

__Isto não deve surpreender a nenhum analista bem informado e que seja sensível com a dimensão sócio – ética. Ao demolir o planejamento governamental; ao instituir um Estado em crise permanente e sobredimensionado em face da capacidade de contribuição da massa de cidadãos e empresários comuns; e ao erigir a punição branda a todos quantos promovem e efetivam crimes contra o Estado e o erário público, o país construiu as bases de sua própria implosão de longo prazo.

__E já se está há tempos nesse longo prazo.

__Para diminuir os problemas decorrentes de análises parciais, no plano internacional não se permite mais o produto interno bruto de uma nação ser exposto “à solta”. Pelo contrário, ele começa a ser associado a renda per capita, a índices de alfabetização e a expectativa de vida. Estes três dados formam o IDH, dito índice de Desenvolvimento Humano. Apesar de suas falhas e limitações evidentes, já é bem melhor pois cria associações que espelham melhor uma sociedade.

__Deste ponto de vista, o Brasil classificou-se em 2002 no 67º lugar, quanto ao seu IDH. Isto demonstra cabalmente o quanto se deve progredir de fato.

__E esta classificação é oriunda em boa parte de métodos estatísticos, entre eles, o da ADM.

__A ADM, como instrumento, permite que se sintam com maior variedade e rigor mais dimensões e variáveis analíticas, que correlacionadas, podem oferecer um quadro mais acurado, mais preciso de uma realidade.

__Eis uma das razões principais que a leva a ser bastante utilizada pelos analistas. No lugar de prender-se a uma variável, como o Brasil fez nas décadas de 1970, 1980 e 1990, amplia-se o espaço analítico e espectral, o que permite estabelecer elos mais sérios e justos. Isto legitima melhor as análises e evita decisões e declarações apressadas, entre outras vantagens.

__Nas linhas que seguem, mostra-se um pensamento de ADM relacionado a este tipo de pensar.


1 - ADM e sua serventia.


__A ADM serve neste caso para que determinemos quais variáveis podem ser utilizadas para que sejam as mais representativas no que se refere à caracterização de municípios e praças bancárias.

__Neste âmbito, o grupo interativo do coletou, debateu, selecionou e verificou (em certos casos ainda em caráter preliminar), quais variáveis poderiam, em sendo disponíveis no Banco de Dados, prever melhor as características de tipos parecidos de grupos.

2 - Aproximação computacional

__Do ponto de vista tecnológico e computacional, a ADM é muito parecida com a análise de variância. Os modelos tradicionais e já consagrados dos anos 1960 e 1970, ANOVA e MANOVA, a geram e reproduzem.

__A meta e o conceito central neste sentido, da ADM, é que se determine se há diferenciais entre grupos de dados, no que diz respeito à média de cada variável. A seguir, procura-se utilizar esta variável para prever se ela pertence ou não a um grupamento específico.

3 - Análise de variância


__O questionamento, desafio e problema que visa ser respondido pelo ADM é de análise unidirecional de variância (ANOVA).

__O que se deseja é saber se dois ou mais grupos são significativamente diferentes um, do outro, em relação à média de uma variável específica pré-estabelecida.

__Caso analisássemos uma variável apenas, o teste de significância final que diría se de fato uma variável discrimina bem entre dois grupos é o teste de F. Naturalmente, vamos ele pode ser aplicado junto a outros testes que citaremos mais adiante.

__F é uma razão, uma proporção da variância entre grupos em relação a uma taxa média ponderada de variância intergrupal. Caso a relação entre estas razões seja pequena, então a razão entre os dois é significante. Desta forma, existe pelo menos uma diferença significativa entre as médias dos grupos.

__Na medida em que introduzem-se dimensões variadas, surgem múltiplas opções de cálculo. Num deles, realizado para uma grande empresa estatal, trabalhou-se com três dimensões, dadas pelas funções FUS - DIAT; FUS - DIPE e FUS - DICO. Neste caso, teve-se uma matriz de variâncias totais e de co-variâncias. Paralelamente, teve-se uma matriz de variâncias e covariâncias totais.

__Estas matrizes foram comparadas por meio de dois testes F multivariados. Assim, foi possível definir se há diferenças significativas entre os grupos, em relação a todas as variáveis das funções FUS que foram trabalhadas.

__Para definir o procedimento de corte entre variáveis dependentes e variáveis independentes nas três dimensões, é importante entender que neste caso particular em cada dimensão há indicadores claros que definem riqueza (força econômica), enquanto outros dirigem-se à sinalização da pobreza ( ou de carências municipais).

__Desta forma, o corte ocorrerá em dois níveis, bem claros e discriminatórios. O que um Governo, uma Secretaria de Desenvolvimento ou um Banco público deseja é identificar aonde possui reais formas de gerar resultados enriquecedores aos acionistas, por município neste caso, sem perder de vista o benefício social.

__Este procedimento é também conhecido como análise de variância multivariada, ou MANOVA.


4 - Passos na ADM que foi utilizada


__Utilizou-se um modelo consagrado internacionalmente, o STATISTICA, conhecido pela sua capacidade de armazenar, processar e processualizar interativamente um número indefinido (tende a infinito) de dados.

__Assim, o STATISTICA analisa cada um dos dados e verifica qual deles contribui mais ou menos favoravelmente, para a real e efetiva discriminação entre os grupos. A variável de maior relevância é então incluída no modelo, e o sistema eletrônico procede à etapa seguinte.

__Neste procedimento de inclusão de variáveis de alto poder explicativo e de exclusão das de baixo poder explicativo, são mantidas sempre, evidentemente, as variáveis mais relevantes. Obviamente, estas são as que mais discriminam entre os grupos.

__Por exemplo, no caso de se estabelecer uma política de marketing bancário, pode ser útil discriminar entre “municípios pobres” e “municípios ricos”.

__Os “municípios ricos” são aqueles que possuem atributos que se definem como fortemente associados a alta riqueza, como por exemplo renda alta; renda per-capita alta; boa distribuição de renda; alta taxa de crescimento recente e passada do produto; altas expectativas de crescimento do produto; altos índices de poupança e investimento; grandes volumes de depósitos à vista e em fundos; alta taxa de captação de créditos baratos, competitivos; significativa concentração de riqueza; altos índices de produção em setores de ponta; altos índices de produtividade; e afins.

__Isto permite então que com dados variados, se diferenciem grupos e cada município seja estudado em relação a si próprio ,e em relação a um universo maior.

__Mas nem sempre é possível dispor de tantas variáveis, que também sejam as mais desejáveis, como acabamos de citar. Nesse caso, é preciso verificar com seriedade se o conjunto de dados obtido possui de fato a capacidade de dar a resposta que se deseja, pois espelha o que se quer estudar de fato.

__Isto é, as variáveis independentes possuem altos índices de correlação com as variáveis dependentes? E elas são coerentes em sua série histórica. Dadas as respostas que se estima, sejam satisfatórias, a estas perguntas, pode-se avançar na pesquisa.

__Desta forma, por exemplo, no caso de municípios, praças e logradouros de baixo "potencial", vistos sob as dimensões de "atratividade", "complexidade" e de "perfil", indicarão características menos interessantes às atividades de banking mercantil, comercial e de investimento. E vice - versa. Municípios, praças e logradouros de alto "potencial", vistos sob as dimensões de "atratividade", "complexidade" e de "perfil", indicarão características mais interessantes às atividades de banking mercantil, comercial e de investimento.

__Já no caso de um banco de desenvolvimento, a situação anterior se inverte e deixa de ter obrigatoriamente sinalizações “perfeitamente” corretas. Como é papel de uma instituição do gênero repassar crédito a taxas subsidiadas e viabilizar a criação de novos negócios, novas comunidades que saiam da pobreza para o progresso e novos espaços onde atualmente existe um vazio, olhar para os mais ricos, classificá-los e apoiá-los com mais crédito só aumentará as diferenças entre ricos e pobres.

__Então, faz sentido apoiar com crédito os pobres, para que eles deixem de ser pobres. Muito embora, possam argumentar exaustivamente e com boas razões os diletantes, se percam economias de escala já geradas em localidades mais ricas; se aumentem os riscos; e se discrimine contra os mais eficazes e eficientes. E no mundo globalizado, ajudar o miserável a sair da miséria e entrar na pobreza é vital, certamente, lutando-se para que ele salte já da pobreza à classe média e ao enriquecimento. Mas este processo custa caro e é demorado. O justo e essencial capital que vai ao social, em país pobre que não respeita a poupança doméstica e sua formação interna de longo prazo, deixa de irrigar projetos competitivos locais e os destinados à exportação. O país deixa de se viabilizar, porque não tem recursos a aportar ao mesmo tempo a múltiplas áreas.

__Como fazer o balanceamento? Aonde alocar os recursos? Aonde há mais chances de capitalizar municípios, que com rapidez produzam, possam gerar poupança, e então com mais recursos puxem os mais miseráveis.

__Ora dirão com toda razão os mais sócio – orientados: pobreza não pode esperar. Pobreza tem fome e é preciso resolver já!

__É verdade. Faz sentido. Mas ao optar, em políticas públicas faz-se escolha e política mesmo!

__Naturalmente, o que seria desejável é dispor de muitos municípios que tivessem alta atratividade, baixa complexidade e perfil bem definido. E se fizesse um balanceamento que catapulta a todos os municípios, oferecendo-lhes meios de evoluírem no caminho do desenvolvimento.


5 - Análise canônica


__Neste caso particular, não se necessitará obrigatoriamente especificar como combinar os grupos. Esta é uma das vantagens do STATISTICA, que determinará combinações ótimas previamente.

__A primeira função proverá o maior índice discriminativo possível, intergrupal. A segunda função resultante já oferecerá uma discriminação intergrupal mais frágil, e assim por diante.

__O importante é que se evitará a sobreposição interfuncional, pois as funções serão ortogonais, logo independentes, umas das outras.

__Neste esquadro, computar-se-ão tantas funções quantos grupos forem feitos, menos um. Isto é, operar-se-á o modelo e o sistema eletrônico com n - 1 graus de liberdade.

__A percepção da natureza da discriminação intergrupal poderá ser gerada visualmente. Analisar-se-ão as médias das funções entre os grupos. A seguir, uma plotação de escores (pontos) das funções discriminantes permitirá entender como as raízes funcionais discriminam entre grupos.


6 - Coeficientes de Correlação


__A análise dos coeficientes de correlação é outra forma que se utiliza para determinar quais variáveis definem funções discriminantes específicas. O fator estrutural resultante, apresentado através de coeficientes, gera correlações entre variáveis no modelo e nas funções discriminantes.

__A importância desta análise decorre diretamente do fato de que os coeficientes da função discriminante apresentam a sua participação específica e individual, para gerarem a função discriminante.


7 - Curva e distribuição normal


__Dada a Lei dos Grandes Números, ao lidar-se por exemplo com 1.027 municípios e seus dados, aproxima-se em diversos casos de dados distribuídos possívelmente de forma similar a uma curva normal (curva de Gauss).

__Embora isto nem sempre ocorra, pois há assimetrías sistemáticas como as geradas pelo sistema de distribuição de renda e de PIB no Brasil, é de bom alvitre utilizar a normalidade na gestão das funções básicas e iniciais de um modelo. Elas poderão ser sistematicamente apuradas com a utilização do STATISTICA.

__Desta forma, é assumido que os dados das variáveis assumem uma amostra altamente representativa de uma distribuição normal multivariada.

__As distribuições dos dados poderão ser apreciadas mediante a análise de histogramas, que fornecerão elementos para verificar se de fato a normalidade ocorre, ou não.


8 - Classificação


__O propósito é também o de gerar uma ADM que emita sinalizações claras acerca de casos de classificação previsíveis.

__O conceito de pôr em ordem, de enumerar por pontos recebidos dada a combinação das variáveis com os seus respectivos pesos, poderá ser estabelecido.

__Decorrentemente, ao ser finalizado o modelo ADM verdadeiro, para cada uma das três dimensões que se pretende explorar, pode-se responder à questão mais relevante desta etapa de trabalho: o quão bem e até que ponto é facultado estabelecer e prever que um município e uma ou um conjunto de agências bancárias pertencem a um grupo específico?

II CLUSTER


9 - Objetivos do Cluster


__O que se pretende ao organizar dados observados, em estruturas representativas e significativas de uma realidade, é o desenvolvimento de categorias, famílias, grupos e portanto taxonomias.

__O que o método de clusterização (CLU) faz, é estabelecer uma sistemática que oferece classificações, logo agrupamentos. Neste sentido, os membros internos do grupo obtido possuem entre sí denominadores comuns de valores.


10 - Elementos do processo de clusterização


Merecem atenção diversos elementos e passos, num processo CLU, a saber:

1 - juntar dados observados, objetos ou informações, em clusters cada vez mais amplos e mais agregados;

2 - utilizar alguma medida de similaridade ou de distância;

3 - associar mais objetos e dados, para agregá-los por categorias, classes, hierarquias e famílias;

4 - determinar distâncias intergrupais e intragrupais;

5 - a capacidade de interpretar-se o significado diferenciado de cada cluster gerado, com seus impactos no processo decisório organizacional;

6 - procurar entender como decorrência, de que maneira as diferenças, as assimetrias e as distorções impactam em medidas gerenciais na organização;

11 - Geração de Amálgamas


__O ato de juntar e de agrupar permite que se identifiquem fatores de similitude e de diferença entre grupos diferenciados. Isto permite que se otimizem políticas empresariais.

__São disponíveis para os analistas vários métodos de associar, correlacionar, integrar, misturar ou juntar dados e de torná-los membros de um grupo. Entre eles destacam-se os seguintes:

1 - associar dois clusters quando quaisquer dois dados em dois clusters estão perto um do outro, minimizando distâncias associativas (single linkage);

2 - associar os vizinhos de clusters, que apresentam distâncias significativas entre sí (complete linkage);

3 - gerar o clustering pelas médias, que permite que se estipule um valor ou um corte, logo “se informe” ao sofware, o número de separações que se considera desejável, para finalidades previamente e bem estabelecidas. Neste nível e momento de pesquisas, a busca por cortes e categorias analíticas é gerada pela gestão do algoritmo das médias em número de k, do clustering.

Uma das vantagens deste processo ad-hoc de estabelecimento de clusters, é o de gerarem-se numerosas (tantas quantas se desejam), categorias diferenciadoras. Assim, o atendimento e a compreensão das diferenças pode ser bem estabelecido.

Na modelagem podem ser por fim utilizados os métodos livre e estimulado (k) de amalgamação. Ao longo da modelagem definem-se freqüentemente em 5 (cinco), os números de cortes a serem testados.


Deste modo, o analista passa a dispor de uma modelação básica, que lhe permite evoluir conforme o seu desejo, a favor de novas descobertas, por exemplo na área de ciências humanas.

Tabela A.1 – Amostra da População de Agências com Baixa Inadimplência (p1)

 

Tabela A.2 – Amostra da População de Agências com Elevada Inadimplência (p2)

 

 



- © Copyright IBCI 2002-2007 - All Rights Reserved.




© Copyright IBCI 2002-2007 - All Rights Reserved