Google Acadêmico: índices h e i10
O Google Acadêmico (Google Scholar, em inglês) é uma plataforma voltada à organização de textos acadêmicos. O buscador padrão do Google tem um algoritmo que privilegia as páginas da internet, escritas no formato HTML, conferindo menor relevância a textos publicados no formato PDF, que é o modo padrão de circulação de textos acadêmicos. Além disso, o Google Acadêmico realiza buscas a partir de critérios de relevância típicos da academia, como número de citações e prestígio dos autores e das editoras que os publicam.
Se você faz uma pesquisa no Buscador do Google por "Direito e Políticas Públicas", nas primeiras entradas aparecem alguns textos, mas também referências a grupos de estudos, cursos de pós-graduação, disciplinas acadêmicas, canais no YouTube, além de uma propaganda de uma graduação em direito.
Já Google Acadêmico retorna apenas textos entendidos como acadêmicos, a maioria em PDF: artigos e livros sobre o tema, ordenados a partir de critérios de relevância que dão prevalência a artigos publicados em revistas de prestígio e com várias citações. Diversamente do que ocorre nas buscas normais, são explicitados os formatos dos textos (HTML e PDF, normalmente) e os locais em que eles foram publicados.
Além disso, o Google cruza os dados dos textos entendidos como acadêmicos, para identificar a rede de obras a que eles fazem referência, o que possibilita indicar, para cada resultado da busca, o número de citações identificadas pelo algoritmo (e que é também um dos critérios de relevância).
Considero que essa busca automatizada de citações é a principal contribuição do Google Acadêmico para os pesquisadores, pois ele possibilita que os acadêmicos possam ter uma noção razoavelmente precisa do impacto de sua produção. A busca por textos acadêmicos pode ser feita de modo bastante produtivo em outras aplicações, como o Elicit e o Research Rabbit, que têm resultados mais complexos em termos de levantamento bibliográfico. Porém, desconheço um instrumento que identifique as redes de citação de modo tão eficiente como o Google Scholar.
Quando você cria um perfil no Google Acadêmico (o que exige uma conta no Google, como era de se esperar), o aplicativo cria uma lista com as publicações que ele identifica, ordenada por número de citações que elas receberam. Este, por exemplo, é o início da minha página, com os meus cinco trabalhos mais citados. Vocês notarão que não são trabalhos novos, já que as citações tendem a atingir maior número em trabalhos que permanecem como referências interessantes para o campo, após vários anos, o que permite uma acumulação gradual de citações.
Minhas tentativas de mapear a produção jurídica brasileira a partir do Google Scholar me levaram a perceber que não existem ferramentas muito avançadas de busca pelos pesquisadores ou instituições. Por esse motivo, é muito importante que você seja cuidadoso na descrição que você apresenta, pois esse é um dos elementos utilizados pelo Google quando alguém tenta identificar os pesquisadores que atuam em um certo campo. Pessoalmente, eu utilizei essa descrição para indicar vinculação institucional, país e qualificação, tanto em português como em inglês, pois a existência dessas informações possibilita que meu registro seja encontrado por uma pessoa que busque a produção brasileira ou da UnB.
Além disso, é preciso tomar cuidado com as palavras-chave, que têm um número limitado. Coloque neste item os parâmetros que você acha que podem ser usados por alguém interessada em descobrir textos semelhantes àqueles que você produz.
A imagem acima é do meu perfil público. Abaixo segue a imagem do perfil privado, no qual aparecem algumas possibilidades de edição: nome, foto e também os dois botões indicados pelas setas amarelas.
O segundo botão serve apenas para ver os itens que você deletou. Já o primeiro botão é extremamente útil: serve para adicionar produções, por meio de duas abordagens. A primeira é a de selecionar os textos que o próprio Google identificou como potencialmente seus. No meu caso específico, tenho a dificuldade de que o meu nome é comum e um homônimo meu, professor de física na Universidade Federal do Ceará, tem uma grande produção em estudos sobre nuvens e mudanças climáticas.
Essa homonímia faz com que o Google nunca consiga diferenciar adequadamente a nossa produção, o que faz com que eu (e ele também) tenhamos de selecionar, entre os textos sugeridos, quais são aqueles de que somos efetivamente autores. Porém, não é somente essa homonímia perfeita que dificulta a identificação: por vezes, meu nome sai como "AA Costa", "A Araújo Costa" ou "Costa, Alexandre A.", o que multiplica o número de trabalhos que poderiam ser tanto meus como de outras pessoas. Quando o trabalho é citado apenas como "Alexandre Costa", o Google não é capaz de diferenciar a minha autoria da do meu colega Alexandre Bernardino Costa, que também é professor na Faculdade de Direito da UnB.
Essa dificuldade com a identificação faz com que todos os pesquisadores com conta no Google Acadêmico precisem utilizar o menu para adicionar produções, selecionando os textos que são efetivamente seus. Periodicamente, é preciso fazer uma análise dos textos que foram sendo adicionados ao seu perfil, pois a definição padrão do Google é a de que ele adiciona à sua página os textos que parecem ser seus, e que ocasionalmente não são. Dessa forma, mesmo autores que tomaram o cuidado de selecionar adequadamente a sua produção podem ser surpreendidos com o acréscimo de textos que eles não escreveram.
O próprio Google explica que a busca automática por novos textos pode demorar semanas até identificar uma nova publicação. Por esse motivo, você pode acrescentar manualmente textos que tenham escapado ao radar do algoritmo ou que sejam recém-publicados.
Depois de identificar claramente quais são os seus textos, você precisa localizar as entradas na lista que são idênticas. Muitas vezes, o mesmo trabalho é citado de formas ligeiramente diversas, o que faz com que eles sejam considerados pelo Google como produtos distintos. Por exemplo, meu trabalho mais citado, escrito em co-autoria com meu amigo e colega Juliano Zaiden Benvindo, foi referido de 5 formas diferentes.
Para evitar essa multiplicação indevida, basta selecionar todos os trabalhos que são idênticos e escolher a opção Merge/Combinar, que aparece quando você marca a caixa de seleção de mais de um item.
Uma vez que você faz o levantamento e a devida organização da sua produção, dentro do Google Scholar, o programa aplica dois indicadores à sua produção. O mais simples é o i10-index, que contabiliza o número de textos que você tem e foram citados mais de 10 vezes. Trata-se de um indicador baseado na suposição de que um texto citado 10 vezes tem especial relevância para o campo acadêmico em que ele se insere.
A maioria dos textos publicados não chega a esse patamar. Um artigo citado 10 vezes foi lido centenas de vezes e baixado dezenas de vezes. Para se ter uma comparação, o relatório de pesquisa acima referido, demorou 10 anos para chegar a 110 citações, período no qual as informações contidas na base SSRN, em que ele está disponível desde o início, indicam que ele foi acessado mais de 5.000 vezes e teve mais de 1500 downloads, ao longo de 10 anos.
Para um pós-graduando, é uma meta ambiciosa ter um texto citado 10 vezes, cerca de 10 anos após a sua publicação. Pode parecer pouco, mas o fato é que existem vários professores universitários que não alcançam esse patamar, especialmente se excluirmos as autocitações (algo que o Google não faz...). Além disso, é preciso ter em mente que a maioria dos textos que produzimos fica aquém dessa marca. Um pesquisador com índice i10 = 1 não é um pesquisador iniciante, mas alguém que provavelmente publicou uma dezena de textos, sendo que alguns deles terão sido citados 5 ou 6 vezes.
O que define se o texto será citado não é apenas a sua qualidade, mas a sua visibilidade e o interesse social que existe sobre ele. Um pesquisador pode ter a sorte e ter escolhido um tema que entrou na ordem do dia. Porém, o mais comum é que seus textos circulem porque eles se deram ao trabalho de tratar de questões que têm o potencial de continuar relevantes, ao longo de vários anos.
Além disso, é preciso ter em mente que as citações se acumulam ao longo do tempo. Múltiplos textos com mais de 10 citações são fruto de uma carreira acadêmica longa e produtiva. Por exemplo, o professor Marcelo Neves, um dos principais teóricos do direito do país, tem uma produção constante ao menos desde 1988, somando atualmente 195 itens no Google Scholar. Ele tem um i10 = 59 (para toda a produção) e de 33 (para os últimos 5 anos), o que significa que 2/3 de sua produção foi citada menos de 10 vezes.
O índice i10 é simples e facilmente compreensível, mas é pouco robusto. Ele define esse número cabalístico de 10 citações e apenas conta quantas publicações estão acima desse patamar. Essa abordagem pode ser relevante para definir quais são as pessoas que têm uma voz dentro do campo jurídico, mas contribui pouco para identificar os seus atores mais centrais: aqueles que têm vários trabalhos citados várias dezenas de vezes.
Um indicador mais significativo, e também mais complexo, é o índice h (h-index). Proposto por Jorge Hirsch em 2005, em um artigo citado mais de 14.000 vezes desde então, esse indicator se tornou a principal métrica da produção acadêmica.
Um pesquisador com h = 2 tem 2 trabalhos citados ao menos 2 vezes. Um pesquisador com h = 5 tem 5 trabalhos citados ao menos 5 vezes. Esse autor pode ter 2 trabalhos citados 15 vezes, mas o que o índice observa é uma combinação de amplitude da produção e de seu impacto. Por exemplo, o h de todas as citações ao meu trabalho é 14, o que significa que eu tenho 14 produções citadas ao menos 14 vezes.
Esse é um índice esperado de um pesquisador que, como eu, começou a publicar textos acadêmicos há cerca de 20 anos e é professor da pós-graduação há mais de uma década. Hirsch, no artigo em que propõem esse indicador, calculou que h = 12 era um valor típico para professores associados (tenured), 20 para cientistas de sucesso e 40 para pesquisadores nacionalmente relevantes. Já um h = 60 caracterizaria indivíduos realmente singulares, com impacto individual muito significativo. Como Hirsch pensava em termos de ciências exatas (especialmente física) e publicações em língua inglesa, feitas por professores que integram as principais universidades do mundo, a aplicação dessas projeções à realidade brasileira atual deve ser vista com cautela.
Apesar dessas limitações, o Google Scholar se mostra uma ferramenta bastante útil para que os pesquisadores acompanhem o impacto de sua produção e possam fazer escolhas estratégias adequadas com relação ao espaço acadêmico que eles pretendem ocupar.
- Que índice i10 você pretende ter daqui a 10 anos?
- Que índice h você pretende ter daqui a 20 anos?
Apesar das óbvias simplificações envolvidas na utilização de indicadores desse tipo, creio que essas perguntas podem ajudar pesquisadores, tanto iniciantes como experientes, a definir uma estratégia de publicação adequada para sua carreira.
Discussão