Opinião

O mistério por trás das palavras

Tanto quem fala quanto quem escuta busca fazer o menor esforço possível na comunicação

As palavras guardam segredos. Curiosamente, um deles foi revelado por um amante das línguas por meio da matemática.

George Kingsley Zipf (1902 – 1950) foi um linguista e filólogo americano apaixonado pelas letras. Todas elas. Especializou-se em alemão. Formado pela Universidade de Harvard, estudou também nas Universidades de Bonn e Berlim.

Certa feita, em idos de 1935, deparou-se com a frequência das palavras nos textos que lia. Em linhas gerais, algumas palavras são usadas muito frequentemente e outras, raramente. Para tanto, as listou em ordem decrescente de uso. Mesmo em diferentes contextos e assuntos, observou que a palavra de uma lista costumava ser aproximadamente duas vezes mais frequente que a segunda, e três vezes com maior frequência que a terceira.

Em português, as três palavras mais usadas são o artigo “a”, a preposição “de” e a conjunção “e”. Similarmente, e respeitando as diferenças de idioma, pode-se citar em inglês o artigo “the”, a preposição “of” e a conjunção “and”, sendo que, neste caso, “the” aparece quase duas vezes mais do que “of” e quase duas vezes e meia mais do que “and”.

Pode-se afirmar que cada língua, bem como cada sotaque, tem suas particularidades. Em português, os artigos mais usados são, na ordem: aoum; preposições: deempara; conjunções: emasou; pronomes: queeuvocê; substantivos: coisacasatempo; adjetivos: bomgrandemelhor; verbos: serirestar; advérbios: nãomaismuito; numerais: umdoisprimeiro. Não é tão difícil perceber a diferença entre a frequência das palavras, pois há por exemplo poucos artigos e dezenas de milhares de substantivos em português. E comumente usamos o artigo antes de quase todo substantivo: a coisaa casao tempo... Desta forma, os artigos ocorrem naturalmente com maior frequência que os substantivos.

Este peculiar comportamento das palavras havia sido apontado por outros pesquisadores, como o escritor e estenógrafo francês Jean-Baptist Estoup (1868 - 1950) e o físico alemão Felix Auerbach (1856 - 1933). Todos perceberam uma distribuição recorrente em diversos tipos de dados de diferentes origens. No entanto, Zipf debruçou-se a explicar matematicamente. Em linhas gerais, admitiu que tanto quem fala quanto quem escuta busca fazer o menor esforço possível na comunicação. Este raciocínio o levou conclusões estatísticas ao ordenar as palavras em ordem decrescente de frequência.

Assim, ao analisar a obra monumental do escritor, contista, romancista e poeta irlandês James Augustine Aloysius Joyce (1882 - 1941), “Ulisses” (1922), Zipf contou as palavras distintas, ordenando-as por frequência, verificando que a palavra mais comum surgia 8000 vezes; a décima, 800 vezes; a centésima, 80 vezes; e a milésima, 8 vezes. Este ordenamento decrescente apresenta uma relação intrigante e exponencial (ou se quiser, um outro termo apropriado seria logarítmico), onde a palavra mais comum foi encontrada aos milhares, a décima em centenas, a centésima em dezenas e a milésima em meras unidades.

Este belo mistério das palavras continua a ser pesquisado até mesmo nos dias de hoje. Há por exemplo um livro do século XV, ainda indecifrável e belamente ilustrado, denominado “Manuscrito Voynich”, com cerca de duzentas páginas. Seu conteúdo, ainda incompreensível, recebeu a alcunha do “livro que ninguém conseguiu ler”, e foi descoberto pelo químico e livreiro polonês-lituano Wilfrid Michael Voynich (1865 – 1930) em 1912. Embora não tenha sido decifrado ainda, ao menos pode-se dizer que foi escrito em alguma linguagem, pois tal obra obedece rigorosamente a Lei de Zipf. Um mistério a ser revelado.