Classificação de Emoções

Examinando as Eleições Americanas de 2016

O meu próximo post, após o exame das Olimpíadas Rio2016 com o algoritmo kMeans usando clusterização, seria sobre o tema classificação e utilizaria o algoritmo kNN. Ainda vou fazer esse post, no entanto não pude resistir ao assunto das eleições americanas e a oportunidade que se apresenta para a aplicação de machine learning num campo até recentemente reservado apenas aos humanos.

A IBM chama computação cognitiva à aprendizagem de máquina aplicada ao vasto campo das habilidades humanas que ainda não foram transformadas em números. Detectar o tom emocional do discurso, por exemplo, é uma habilidade típica humana, facilmente realizável, apesar do potencial de controvérsia quanto aos seus resultados quando fazemos isso sem o devido tato… Através da composição de algoritmos que processam linguagem natural, o IBM Watson é capaz de apontar o tom emocional de um texto com um score de probabilidade correspondente. Mas não é só isso, como veremos adiante, certas qualidades emocionais, como abertura e conscientização, podem ser inferidas a partir do texto do discurso e o Watson irá utilizar essa capacidade para criar três grupos de classificação: emoção, estilo de linguagem e tendências sociais. Assim consegue mostrar o que pode extrair de um texto além das tradicionais estatísticas e análises gramaticais.

Há uma frase atribuída a Pitágoras que diz “Todas as coisas são números”. Em aprendizagem de máquina estamos caminhando na firme direção de fazer valer a frase pitagórica na sua mais pura literalidade. Vamos ver, neste exemplo, como o Watson reduz Donald Trump e Hillary Clinton à números, a partir de seus discursos de campanha.

Em 21 de julho de 2016, Donald Trump proferiu o discurso de aceitação da indicação pelo Partido Republicano. Nesse discurso, perante a Convenção, resumiu as linhas de sua candidatura à presidência. Vamos analisar o tom emocional através do Watson. Para isso basta utilizarmos e página de demonstrações na web que permite upload do texto do discurso e nos retorna a análise na forma de três gráficos. Veja a figura adiante.

t1

No primeiro gráfico vemos a preponderância da emoção raiva (anger) com 80% de probabilidade. As emoções desgosto, medo e tristeza também foram detectadas mas aparecem com probabilidade muito pequena. Não há nenhuma alegria detectada no discurso.

Observamos que o estilo da linguagem é analítico e confiante, sem nenhuma hesitação (tentative). Quanto a tendências sociais, podemos destacar a variação da escala emocional e a conscienciosidade/escrupulosidade (conscientiouness), termos que caracterizam a pessoa eficiente e organizada, com desejo de realizar bem uma tarefa que, no extremo, pode se tornar um workaholic ou um compulsivo.

Note-se que para o caso da interpretação de conscientiouness como escrupulosidade há nuances diferentes conforme o contexto em que a palavra é aplicada. O termo escrúpulo não é usado aqui no sentido moral, enquanto a palavra consciência leva, em geral, a uma identificação com “foco”, o que também não é o sentido desejado na classificação. Neste caso especial não achei um consenso nas traduções entre os especialistas para o termo conscientiouness. Ficamos com a tradução escrupulosidade, mas na acepção de meticulosidade, fazer bem uma coisa, ou até excessivamente bem, se é que isto existe.

Observemos agora o discurso proferido por Hillary Clinton para o mesmo tipo de evento, indicação para a disputa à presidência, Convenção Democrata, 28 de julho de 2016.

h1

A alegria é a emoção preponderante, porém não é o tom absoluto do discurso, como é a raiva no exemplo anterior. Em destaque a comparação do estilo da linguagem, que é analítico e hesitante enquanto seu adversário é analítico e confiante. As tendências sociais mostram a mesma variação da escala emocional do discurso e escrupulosidade. O destaque final fica para a condescendência ou amabilidade (agreeableness) que aparece no discurso com uma alta probabilidade de 86%.

Para nós, espectadores, que conhecemos os candidatos e suas campanhas, é fácil concluir que, apesar dos discursos terem sido redigidos por escritores profissionais, eles refletem bem a natureza da campanha, a imagem e a intenção dos candidatos. Mais ainda, é possível perceber, numa análise temporal, a alternância de emoções associadas aos eventos do momento (protestos e notícias). Conforme o desenrolar da campanha o tom emocional em cada estágio precisou ser dosado para refletir não só o candidato mas também o momento, observem a evolução temporal:

emocao-alegra-campanha

emocao-raiva-campanha

Podemos perceber como os altos e baixos da emoção raiva acompanham ambos os candidatos, no entanto é nítida a preponderância no discurso de Trump. Simetricamente o oposto podemos dizer da emoção alegria. A candidata Hillary manteve uma boa dose dessa emoção, consistentemente, durante o período analisado.

Apesar de não sabermos quem escreveu os discursos individuais, sabemos que Dan Schwerin, ex acessor na Secretaria de Estado e do senador Clinton, foi contratado por Hillary como seu principal redator de discursos. Certa vez ele falou a reporteres como era o processo de escrever discursos: “The candidate has been doing this for a long time and usually has a very clear sense of what she wants to say about something. We will go back and forth on drafts and she’ll send me back to the drawing board. She’ll say “I want more of this and less of that.” Occasionally, [Clinton’s] husband will call me up in the middle of the night… One of the things that I learned at The Phillipian [was] to be the kind of writer where you don’t feel too much pride of authorship. You’re always going to be edited.” (Extraído do The Phillipian, o próprio jornal em que Schwerin foi redator no passado).

Li em algum lugar que é voz corrente, entre reporteres e acessores de Hillary, que ela é uma dificuldade para o escritor de discursos. Por ser insegura sobre a sua capacidade de comunicar a mensagem, é capaz de tornar fraco um bom discurso. Por exemplo, quando a equipe propõe abordar uma questão em profundidade e ela, ao invés, passa a fazer uma lista de problemas diversos. No entanto precisamos admitir que o resultado do texto final reflete tanto a estratégia da campanha quanto o caráter do candidato. É esse pressuposto que torna interessante a comparação entre os dois postulantes.

hillary

Por dificuldades semelhantes passou o escritor fantasma de Donald Trump, Stephen Miller, o qual serviu durante muitos anos a um senador conservador do Alabama. Ele elaborou os mais importantes discursos de Trump, que é conhecido por usar frases curtas e contundentes. A Miller foi creditado o aprimoramento do discurso de Trump, que, em pelo menos uma ocasião, apresentou uma estrutura argumentativa direta, realizado com teleprompter (The Wall Street Journal).

trump

Comparando os dois gráficos “radar” podemos identificar as marcas de campanha e fazer perguntas que uma análise mais aprofundada talvez responda. Por exemplo, até que ponto contribui para a “chamada à ação” a manutenção de altos níveis da emoção raiva? Como deve ser a aplicação da emoção alegria? Alguns discursos buscavam parecer espontâneos e conversacionais, como combinar emoções e vocabulário? Falando em vocabulário, é interessante notar que a simples contagem de frequência das palavras pode indicar certas preferências dos candidatos. No caso em questão, extraímos do nosso pequeno corpora de discursos, estas doze palavras que foram as mais empregadas por Hillary e Trump (descontadas o conjunto de palavras funcionais):

Hillary: people, America,make, work, know, country, many, out, Americans, together, need, women.
Trump: going, people, know, very, country, I (I’m), great, don’t, America, Hillary, Clinton, really.

As análises tradicionais, usando processamento de linguagem natural, mesmo quando aplicadas numa análise linguística superficial como a contagem de frequência, já permitem estabelecer uma base de entendimento do discurso através do seu vocabulário. O serviço Tone Analyzer calcula tons emocionais, além de tons de estilo social e de escrita. e pode se mostrar uma ferramenta auxiliar eficaz ao ser combinada com outras abordagens de análise linguísticas.

Como vemos, a capacidade de uma análise automática de discursos é real e pode ser usada como uma ferramenta para aferir textos de campanha, caracterização de personagens em roteiros ou livros, seleção de candidatos a vagas de emprego e em muitas outras situações. O uso de técnicas de NLP (Natural Language Processing) já está disseminada em aplicativos e sites, mas a introdução de técnicas cognitivas abre um novo horizonte para ser explorado.

No modelo do Watson são aplicadas várias técnicas, algumas vindas da análise literária outras da análise psicológica. Em particular está baseado no bem estudado modelo “Big Five” ou modelo dos cinco fatores de personalidade (Modelo FFM – Five Factor Model). Este é um modelo estatístico que sintetiza inúmeras dimensões e características em cinco fatores descritivos, baseados numa análise linguística. Foi inicialmente proposto por Ernest Tupes e Raymond Christal em 1961, mas só foi desenvolvido plenamente em 1980, com diversas outras contribuições.

É bom destacar que a análise de tom emocional, que algumas vezes chamamos de humor do texto (mood), é diferente da análise de sentimento onde trabalhamos com a bipolaridade de sentimentos positivos e negativos; os quais revelam como o autor se sente internamente. Podemos fazer análise de sentimentos com as APIs do Watson, mas o serviço de tom emocional é diferente porque expõe como alguém está se mostrando aos outros, através dos textos.

Por último, observemos como Donald Trump exprimiu seu reconhecimento pela vitória, no dia 9 de novembro.

tx

A emoção preponderante agora é alegria, mas ainda compartilhada com a raiva (que baixou 41%). As emoções desgosto, medo e tristeza quase não foram detectadas. O estilo da linguagem trocou de direção, diminuiu pela metade o componente analítico e quase que dobrou o componente confiança. É um movimento razoável, já que o discurso de vitória é mais uma comemoração do que um balanço. A hesitação continua zero. Quanto às tendências sociais vemos a variação para baixo da escala emocional. Minha análise é que o momento não exigiu muito histrionismo, daí uma resposta “mais plana” e menos variada. Como poderíamos esperar a extroversão e a amabilidade aumentaram.

Como veem, não apenas a “foto” instantânea do discurso, mas também sua análise evolutiva fazem sentido. Esta será uma poderosa ferramenta para análise de textos. Acrescento, finalmente, o fragmento de código Python que me permitiu acessar a API do Watson e construir meus gráficos.

fonte-wmood

Usei Python 2.7, as bibliotecas Numpy e Matplotlib, assim como utilitários de NLP de minha autoria. Também foram usadas BeautifulSoup, requests, json ,
e outras bibliotecas padrão do Python.

E, é claro, a biblioteca de desenvolvimento IBM Watson, watson_developer_cloud e ToneAnalyzerV3.

 

Referências Bibliográficas

⦁ Página demonstração: https://tone-analyzer-demo.mybluemix.net/
⦁ Visão geral do serviço: https://www.ibm.com/watson/developercloud/doc/tone-analyzer/
⦁ Para entender os números: http://www.ibm.com/watson/developercloud/doc/tone-analyzer/understanding-tone.shtml#emotional
⦁ Modelo dos Cinco Fatores: ⦁ https://pt.wikipedia.org/wiki/Big_Five_%28psicologia%29
⦁ Big Five em Inglês, sempra há uma diferença…: https://en.wikipedia.org/wiki/Big_Five_personality_traits
⦁ Para ampliar a visão de modelos em psicologia: https://pt.wikipedia.org/wiki/Psicologia_da_personalidade
⦁ Discursos de sites oficiais e jornalísticos permitiram formar o pequeno corpora de 59.166 palavras e 17 discursos.

By | 2016-11-28T17:19:08+00:00 22/11/2016|Comunidade|0 Comments

About the Author:

Consultor de tecnologia de software, engenheiro eletricista e professor universitário. Moacyr é formado Engenheiro Eletricista pela Escola Politécnica da Universidade de São Paulo – USP e realizou especialização em Gerenciamento de Projetos e Empreendimentos pela Fundação Getúlio Vargas – FGV. Possui experiência de 31 anos trabalhando na área de Tecnologia da Informação. Nos últimos 16 anos, foi Senior IT Specialist na IBM Rational. Empenhou-se na transformação de organizações de desenvolvimento utilizando metodologias ágeis como Scrum, SAFe, Kanban e Lean. Teve o privilégio de trabalhar em instituições que buscavam o diferencial através da tecnologia. Nos oito anos que pertenceu ao Centro de Computação Eletrônica da USP (CCE) aprendeu a atitude de pesquisar como um fator contribuinte para melhoria do trabalho cotidiano. Manteve sempre essa atitude na medida em que outras oportunidades se apresentaram: Instituto de Pesquisas Tecnológicas (IPT), ItaúData, Tecnologia Bancária e Rational Software. Elaborou patente sobre processamento de linguagem para detecção de padrões em textos de especificação de requisitos. Elaborou algoritmos de classificação automática de textos em linguagem natural. Foi o responsável pelo projeto de tradução do RUP para o português e publicou livro de co-autoria com autores renomados como Ivar Jacobson, Barry Boehm e Harold “Bud” Lawson, entre outros. Ministrou por 9 anos, disciplinas de extensão universitária em Engenharia de Software (MBA FIAP, SENAC, Fatec e MBA IBTA).

Leave A Comment