Hop, une petite mise à jour de la base du noyau linux, elle est issue du site mirroir du noyau linux.

Elle comporte 4 753 432 lignes en version validée et épurée des multiples doublons !!

Il est possible de la télécharger sur le site prévu à cet effet et généreusement mis à disposition par l'adullact. Attention le fichier .bz2 fait quand même 81 758 619 octets!

Je pense que c'est la dernière fois que je produit un .bz2 pour cette base, vu le temps qu'il faut pour le générer et le peu de gain que l'on obtient par rapport à un .gz (pour les données en question). D'ailleurs ça me fait penser à vous mettre en garde : la base une fois décompressée occupe 895 807 233 octets !!

Pour la suite de l'outils, il me faudra un script qui me permette, une fois le travail terminé de :

  • trier chaque base (ben oui, le script est, depuis le début, prévu pour gérer plusieurs bases, même si pour le moment y'en a qu'une)
  • enlever les doublons
  • valider les bases générées
  • faire le .gz final (sans tout casser, comme je le fais à chaque fois quand je le fais à la main :/)

bon y'a plus qu'a !