Geração de conhecimento a partir de dados não estruturados - Identificação de tendências na investigação da reputação no terceiro sector
Event Title
Congresso da Sociedade Portuguesa de Estatística
Year (definitive publication)
2017
Language
Portuguese
Country
Portugal
More Information
Web of Science®
This publication is not indexed in Web of Science®
Scopus
This publication is not indexed in Scopus
Google Scholar
Abstract
Este trabalho demonstra a aplicação de uma metodologia que
permite, para o tema da reputação das organizações do terceiro sector: i) identificar
os artigos científicos de maior relevância; ii) identificar nesse conjunto
de artigos tópicos de investigação; e iii) caracterizar esses tópicos quanto às
características dos artigos que os ddefinem. A metodologia contempla diversas
fases.
Primeiro, para se identificar os artigos relevantes sobre reputação no terceiro
sector é necessário identificar os termos utilizados pela academia e pelos profissionais
para se referirem às organizações do terceiro sector e à reputação. A
leitura de artigos permite elaborar uma lista de termos, a qual é objeto de
validação por peritos. Desta etapa resulta uma query para introduzir nos
campos de pesquisa de bases de dados de referência, a fim de identificar artigos
científicos, escritos em inglês. Segue-se um processo de refinamento da
pesquisa, através da leitura do abstract ou corpus, que conduz à exclusão de
artigos escritos noutros idiomas ou não relacionados com o tema, resultando
num conjunto de 177 artigos.
Segundo, para identificar os tópicos de investigação é necessário definir dicionários
que cubram as temáticas endereçadas. Neste caso, são definidos
três: i) tipo de organização do terceiro sector; ii) termos relacionados com o
terceiro sector; e iii) termos relacionados com reputação. Estes dicionários,
validados por peritos, evidenciam sinónimos, plurais, opostos e conceitos associados
aos seus âmbitos. De seguida, recorrendo ao text mining contabiliza-se,
para cada artigo, a frequência de cada uma das entradas do dicionário. Deste
passo resulta uma matriz bidimensional documento-termo, que serve de input
para a aplicação do algoritmo latent Dirichlet allocation, técnica muito usada
na identificação de k-tópicos. Desta fase, após algumas interações com diferentes
k, o investigador seleciona o conjunto de tópicos de investigação mais
adequado aos seus objetivos. Os tópicos refletem associações entre os termos
pesquisados e os artigos analisados. Os resultados apontam para 12 tópicos,
sendo o mais estudado a identidade e o menos estudado o risco.
Terceiro, recorrendo a tabelas de contingência conclui-se que o ano da publicação
é a característica que mais se relaciona com o tópico. Quatro dos
tópicos caracterizam-se por uma tendência de crescimento na última década
e identificam-se tópicos emergentes relacionados com as comunidades online
ou com o risco. Por outro lado, identificam-se tópicos, como os media tradicionais,
que deixaram de ter atenção da academia. Também o editor apresenta
alguma relação com os tópicos. Por exemplo, 11 dos 12 artigos relacionados
com accountability são publicados pela Sage ou pela Wiley. Porém, tópicos
como, por exemplo, a satisfação e governo são abordados em journals dos
diversos editores.
Em suma, a análise proposta ajuda os investigadores a identificar: i) as lacunas
na literatura, as tendências e os desafios; e ii) editores com maior recetividade
aos seus tópicos de investigação
Acknowledgements
--
Keywords
dados não estruturados,terceiro sector,reputação,text mining