Loi de Zipf

La loi de Zipf , en probabilité, affirme que les fréquences f de certains événements sont inversement proportionnelles à leur rang r . La loi a été proposée à l'origine par le linguiste américain George Kingsley Zipf (1902–1950) pour la fréquence d'utilisation de différents mots en anglais; cette fréquence est donnée approximativement par f ( r ) ≅ 0,1 / r . Ainsi, le mot le plus courant (rang 1) en anglais, qui est le , apparaît environ un dixième du temps dans un texte typique; le mot suivant le plus courant (rang 2), qui est de , apparaît environ un vingtième du temps; et ainsi de suite. Une autre façon de voir cela est qu'un mot de rang r apparaît 1 /r fois plus souvent que le mot le plus fréquent, ainsi le mot de rang 2 apparaît deux fois moins souvent que le mot de rang 1, le mot de rang 3 un tiers plus souvent, le mot de rang 4 un quart plus souvent, et ainsi de suite. Au-delà du rang 1 000 environ, la loi s'effondre complètement.

La loi de Zipf a prétendument été observée pour de nombreuses autres statistiques qui suivent une distribution exponentielle. Par exemple, en 1949, Zipf affirmait que la plus grande ville d'un pays était environ deux fois la taille de la plus grande suivante, trois fois la taille de la troisième plus grande, et ainsi de suite. Bien que l'ajustement ne soit pas parfait pour les langues, les populations ou toute autre donnée, l'idée de base de la loi de Zipf est utile dans les schémas de compression des données et dans l'allocation des ressources par les urbanistes.

William L. Hosch