Todos os anos o Dicionário de Inglês Oxford amplia, incorporando termos recém-criados. Contudo, uma análise recente concluiu que enquanto a língua cresce ao longo do tempo, os seus caminhos tornam-se mais definidos. Novas palavras estão sempre a ser adicionadas, de acordo com este estudo, mas poucas se tornam amplamente utilizadas e parte do vocabulário padrão.
A Google digitalizou mais de 20 milhões de livros, ou aproximadamente 4% de todos os livros já publicados em nove línguas, tornando-os acessíveis a qualquer pessoa com uma conexão à Internet. Foi esta base de dados online que os pesquisadores estudaram. Os resultados foram publicados nos Nature Scientific Reports (veja qui o artigo).
A base de dados da Google inclui livros escritos nos anos 1500, mas a equipa limitou a sua pesquisa aos últimos dois séculos. Eles seguiram a proliferação de palavras em toda a biblioteca utilizando o visualizador do Google para estudar o crescimento e padrões de uso de palavras de uma língua. A equipa diz que o "léxico núcleo" do idioma Inglês é composto por cerca de 30.000 palavras que aparecem com mais frequência do que uma palavra num milhão.
Existe também um corpo 100 vezes maior, de palavras raramente utilizadas, onde se encontra a maioria das novas palavras. Alguns dos poucos que saltaram da categoria raramente usada no léxico do núcleo nos últimos anos têm sido palavras como "e-mail" ou "Google". No entanto, estes são a excepção, não a regra.
No início do século XIX, poucas palavras novas eram introduzidas no vocabulário, comparativamente a agora, mas a sua popularidade mudou drasticamente de ano para ano. Uma palavra como "papel" pode estar no topo das mil palavras mais utilizadas num ano, e depois cair fora de uso durante algum tempo, retornando somente a popularidade anos mais tarde.
Os cientistas descobriram que, como o vocabulário de uma língua cresce, a popularidade de uma palavra muda cada vez menos, na era moderna, as palavras mais populares mantiveram-se constantes ao longo de décadas. Para os linguistas, muitas das conclusões a que chegaram os pesquisadores eram conhecidas na comunidade.
"Eles fizeram alguns dos trabalhos de maior escala que qualquer um já fez", disse Bill Kretzschmar, um linguista da Universidade da Geórgia. No entanto, ele considerou os resultados abaixo do esperado. Kretzschmar disse estar feliz por ver os físicos e matemáticos começarem a ficar interessados em linguística. Ele disse que as técnicas estatísticas empregues pelos pesquisadores poderiam trazer novas perspectivas ao campo.
"Eles trazem modelos e métodos que eu não tenho", disse Kretzschmar. "Acho que este é um movimento importante no estudo da linguagem." Ele acrescentou que a vastidão da biblioteca da Google significa que os livros de não-ficção, ficção, poesia e artigos de jornal foram todos reunidos na mesma base de dados. Isto coloca um problema porque essas diferentes formas de comunicação escrita variam drasticamente no seu uso da linguagem, nomeadamente no seu nível de formalidade, sendo que as comparações diretas são difíceis.