(Dé)centralisation des activités et services d’information

Lors de la dernière Open Source Convention (OSCON), un vif débat qui s’est développé entre Eben Moglen, responsable du Software Freedom Law Center et l’éditeur Tim O’Reilly.

Tim O’Reilly, qui recevait Eben Moglen, initia cet échange en déclarant que les licences de logiciels libres étaient aujourd’hui obsolètes parce qu’elles n’étaient pas capables de faire face aux nouveaux problèmes soulevés par les services Web 2.0 centralisés. Comme Eben Moglen a passé l’essentiel de ses jours et de ses nuits dans les deux dernières années à conduire le processus de révision de la principale licence de logiciels libres, processus qui donna récemment naissance à la version 3 de la GNU General Public License, il fallait s’attendre à ce qu’il réagisse à cette affirmation.

Eben Moglen alla à vrai dire un peu loin qu’une simple réaction. Il se livra à ce que Tim O’Reilly lui même appela tongue lashing (fouetter en paroles). Il affirma qu’O'Reilly avait perdu l’essentiel des 10 dernières années à promouvoir des modèles commerciaux sans importance sous le nom d’open source au lieu de s’intéresser aux questions fondamentales concernant les droits et les libertés. Il décrivit le Web 2.0 comme sa dernière marotte dans cette lignée, et affirma que l’insistance sur les services liés ne faisait que cacher une tendance beaucoup plus profonde à la décentralisation de l’infrastructure et des activités informationnelles. Il invita O’Reilly à participer au débat sur droits et libertés. Eben Moglen défendit que la GPLv3, loin d’être obsolète, a reconnu que l’on ne pouvait pas traiter tous les problèmes par l’entremise d’une licence de logiciels libres. Le débouché du processus de révision permet d’expérimenter de nouveaux modèles de licences à copyleft fort pour les services Web (l’Affero GPL v3, en cours de finalisation). Enfin Eben Moglen invita à construire de nouveaux processus de « diplomatie » pour résoudre les complexes conflits de droits dans le monde informationnel d’aujourd’hui.

Dans cet article, je discute une question qui sous-tend ce débat. Lorsqu’Eben Moglen devait reprendre sa respiration, Tim O’Reilly essaya de faire ce qu’il fait mieux que quiconque : soulever des questions d’architecture des systèmes d’information. J’ai le sentiment que la discussion sur la centralisation et la décentralisation des services d’information mérite un débat plus approfondi que celui qui fut possible à l’OSCON. Je partage certes l’irritation d’Eben Moglen face à la façon dont les promoteurs de l’open source se concentrent sur les seuls modèles de développement logiciels et modèles commerciaux, refusant ainsi de reconnaître les enjeux fondamentaux de l’ère de l’information. Mais cette irritation est une mauvaise conseillère si elle nous conduit à ignorer ce qui peut être une intuition profonde, fut-elle mêlée à des arguments ou des motivations discutables.

Types de services d’information

Les services Web 2.0 forment un zoo aux animaux très divers. Certains sont de simples versions Web d’applications qui préexistaient comme logiciels stand-alone aux fonctionnalités presque identiques. Bien sûr, leurs promoteurs y ajoutent quelques fonctionnalités collaboratives pour les faire passer pour différents. D’autres services sont centrés sur la collecte de métadonnées permettant d’accéder à des contenus distribués. D’autres encore rendent possible des fonctionnalités qu’il n’était pas possible d’imaginer ou qui n’ont jamais « pris » dans les environnements des PCs ou les applications client-serveur sur un réseau local. Avec des situations si diverses, il est très improbable qu’on puisse traiter la question de l’équilibre centralisation / décentralisation avec une affirmation unique. Pour mieux la cerner, il nous une véritable taxonomie des services d’informations. Celle que je propose ci-dessous utilise des paramètres très simples, et il devrait donc être aisé pour tout usager ou développeur d’un service de trouver à quelles catégories il appartient (comme pour toutes les classifications, les exemples réels débordent souvent des frontières d’une catégorie). Les paramètres de base sont les suivants :

  • Le service sert-il à produire, localiser ou distribuer de l’information ;
  • Est-ce beaucoup d’usagers contribuent à la production de chaque composant pertinent d’information ou de métadonnées, ou au contraire est-ce que chaque unité informationnelle pertinente pour l’usager est produire par un individu ou un petit groupe[*] ;
  • Est-ce que l’information objet du service est séparable, c’est à dire qu’il existe une valeur dans une partie limitée de cette information, ou au contraire a-t-on besoin d’avoir accès à l’ensemble pour l’utiliser de façon pertinente.

Voici maintenant quelques grandes catégories de services d’information, avec des exemples pour chacun :

Classe Sert à Beaucoup ou peu de producteurs pour une information pertinente Separable dans l’usage?
Versions Web d’applications personnels ou destinées à de petits groupes (Writely/GoogleDocs, NumSum, Netvibes) production peu séparable
Hébergement et distributions de médias (Flickr, YouTube, DailyMotion, …) distribution peu séparable
Rédaction collective granulaire (peu de rédacteurs pour chaque partie ) (Wikipedia) production peu séparable pour certains usages seulement
Cartographie de contenus Web (Glinkr) localisation peu ou beaucoup séparable
Systèmes d’annotations ou commentaires publics(STET, co-ment, Plosone) production beaucoup (commentaires) / peu (textes) séparable au niveau des textes
Réseaux sociaux (MySpace, FaceBook, Meetup, …) production / localisation beaucoup (réseau) / peu (profil and documents) séparable pour certains usages
Intégration entre une information de référence et des données ou interprétations produites de façon distribuée (GoogleMaps, ENSEMBL, …) localisation / production beaucoup non séparable pour l’information de référence
Moteurs de recherche (GoogleSearch), Metadata aggregation services (Technorati) localisation beaucoup non séparable


Dans la première catégorie, le fait qu’il existe un prestataire de service dominant a quelque chose d’arbitraire, de contingent. Si la base logicielle du service est librement accessible et utilisable et que les usagers sont libres d’exporter leurs données, le coût de passage à une autre fournisseur (ou à devenir son propre fournisseur) est limité. Il y a des avantages à utiliser le même service que beaucoup d’autres usagers, particulièrement quand chaque individu est actif dans plusieurs groupes ou quand l’apprentissage de l’utilisation du service est complexe. Mais si logiciels et exportation des données sont libres, tout abus grave de l’opérateur du service à l’égard des droits des usagers a des chances d’être sanctionné par leur désertion. Ce n’est que si la base logicielle est propriétaire ou qu’il existe des obstacles pratiques à l’export des données, que les usagers risquent d’être verrouillés, enfermés dans l’usage du service.

A l’opposé, un service la dernière catégorie (recherche d’informations) est intrinsèquement difficile à fournir sans centraliser de très grandes quantités d’information. La recherche d’information pair à pair progresse, mais la simple physique de l’information et de la communication indique qu’il est très peu probable qu’elle concurrence efficacement les services utilisant des index totalement ou partiellement centralisés. Les coûts d’entrée dans la position de fournisseur de services sont donc très élevés. Les usagers ne sont pas verrouillés par l’enfermement de leurs propres données, mais l’offre de services est limitée à un oligopole, et l’offre de moteurs de recherches qui sont raisonnablement équitables (vis à vis des sources d’information) est encore plus réduite, et pourrait un jour être inexistante.

Pourquoi la centralisation n’est-elle pas morte ?

Nous sommes donc confrontés à des situations où la centralisation a des bénéfices techniques et fonctionnels clairs et à d’autres situations où les seuls avantages de la centralisation résident dans des effets d’échelle qui sont plus significatifs pour générer des revenus publicitaires (fournir des usagers aux annonceurs) que pour fournir une valeur ajoutée aux usagers. Si vous faites une recherche d’informations sur le Web, toute solution qui implique d’explorer la planète informationnelle au moment de la réquête sera très lente. Bien sûr, on peu avoit des situation intermédiaires où l’on a recours à une stockage partiellement centralisé d’index sur le mode des peering servers dans le P2P. Si vous concevez un service comme co-ment, STET, plosone ou ENSEMBL ou un texte (au sens large, incluant un génome) est associé à des commentaires ou annotations d’usagers répartis, il sera très inefficace si on ne centralise pas au moins les métadonnées sur les commentaires d’un texte donné d’une façon ou d’une autre. Cependant, il sera parfaitement possible de décentraliser le service de façon à ce que divers textes soient stockés dans des instances différentes, mais des algorithmes pair à pair permettent à des « petits » services de fournir un service très décent en comparaison des grands fournisseurs. Ce n’est que dans l’accès aux ressources publicitaires qu’ils sont désavantagés. Si vous cherchez à partager un texte avec quelques amis, les seuls bénéfices de la centralisation résultent des effets de réseaux d’usages (le fait que de nombreuses personnes ont déjà un compte Google par exemple) et de la capacité liée à étendre une position dominante d’une type d’application à un autre. Si vous fournissez un service qui utilise de l’information de référence comme l’information géographique, un éventuel avantage concurrentiel lié à la centralisation ne provient le plus souvent que de l’existence d’un contrôle propriétaire sur l’information de référence ou sur un logiciel lié.

Il est également intéressant de noter que le besoin de centralisation dans certains cas ne provient pas que de la distribution physique de l’information à laquelle il est nécessaire d’accéder à un instant donné. Le développement de nouvelles activités décentralisées fait émerger lui-même de nouveaux besoins de services centralisés. Un exemple typique est celui de comment le développement des métadonnées et de leur utilisation dans la syndication RSS a alimenté le succès de services comme Technorati ou Pingomatic.

Pourquoi s’intéresser à ce bestiaire de services ? Parce que la défense des droits, des libertés et des capacités des usagers devra recourir à des mécanismes différents suivant les types de services. Ces mécanismes incluent les licences logicielles et de contenus, la conscience des enjeux chez les usagers, ce que Eben Moglen appelle la « diplomatie » (des négociations multi-parties sur les conflits de droits conduites sous le contrôle vigilant de communautés d’usagers) et cette forme particulière de diplomatie qu’on appelle régulation, et qu’on tend à oublier ces temps derniers parce que nous en avons vu tellement de versions mauvaises ou inefficaces. Attention c’est bien de régulation qu’il s’agit dans ce dernier cas (ce n’est pas un anglicisme) : elle peut utiliser la loi, la réglementation et aussi des formes d’action directe ou indirecte de la puissance publique, par exemple pour l’organisation des marchés.

Capacités, licences, diplomatie et régulation

Si nous visons le développement humain, les libertés et les capacités, nous devons nous assurer que le potentiel des activités informationnelles ne soit pas confisqué au profit d’acteurs particuliers, qu’il s’agisse de pouvoirs politiques ou d’entreprises. Il nous faut construire un environnement où le succès économique récompense le service au développement social et humain et non un où il résulte de l’appropriation exclusive de ressources communes. Ce que j’affirme ici, c’est que différentes stratégies sont nécessaires selon le type des services d’information pour lesquels existent des risques de contrôle propriétaire. Ces stratégies peuvent être illustrées par 3 exemples qui capturent l’essentiel des différences décrites dans la section précédente :

  • Applications personnelles et plus généralement services « séparables » : pour ces services, l’existence de services alternatifs dont la base logicielle est libre et utilise des licences avec des clauses de copyleft fort pour les services (comme la license Affero GPLv3 en cours de finalisation) et la capacité des usagers à exporter leurs données constituent une base essentielle pour l’exercice des libertés et des droits. Cela ne signifie pas que tous les usagers déserteront les services propriétaires, mais le fait que suffisamment sont en position de le faire constitue une incitation puissante pour les fournisseurs de ces services à se comporter de façon décente vis à vis des droits des usagers. Pour les services personnels ou séparables, l’existence d’alternatives libres solides et de droits à l’interopérabilité est plus ou moins suffisante. L’affirmation des droits à l’interopérabilité impose qu’il ne soit pas possible d’utiliser les brevets ou des droits propriétaires sur les bases de données pour empêcher les usagers d’exporter leur données ou pour empêcher destiers d’écrire des logiciels qui leur permettent de le faire. Nous n’avons pas besoin que les services propriétaires soient « ouverts », tout ce dont nous avons besoin est la capacité d’ouvrir une porte pour en sortir. Le degré auquel les fournisseurs de services propriétaires réagiront à cette possibilité en rendant leurs services plus ouverts ou même libres les regarde, l’expérience passée montrant que lorsqu’ils y sont aidés par l’existence de véritables alternatives libres, ils font des progrès rapides, à l’exception de quelques cas incurables.
  • Services combinant des informations de référence et des données personnelles ou associées à de petits groupes. Pour ces services, en complément aux alternatives logicielles libres et aux droits à l’interopérabilité, un troisième facteur nécessaire pour assurer les droits et capacités des usagers : un statut de bien commun pour l’information de référence. L’exemple typique est celui de l’information géographique de référence, qui est généralement produite par des organismes publics. Aux Etats-unis, cette information a un statut de quasi-bien commun, alors qu’elle est le plus souvent propriétaire en Europe. De ce fait, après que les instituts géographiques nationaux européens aient été autorisés ou poussés à considérer que l’information qu’ils produisent est propriétaire, cette appropriation s’étend aux services développés sur cette base, que ce soit à travers des contrats passés avec Google Maps ou pour les services fournis par les instituts eux-mêmes (comme Géoportail). Le fait que ces services soient fournis gratuitement ne change rien à l’affaire, ou même l’aggrave : cela signifie qu’il est plus difficile à un nouvel entrant de développer un service qui respecte les libertés des usagers et contribue à leurs capacités. Comment pouvons-nous faire en sorte que ce troisième facteur devienne une réalité. La production sociétale de l’information géographique de référence peut agir dans une certaine mesure comme une alternative de dernier recours, mais alors que l’ajout d’un enrichissement par les usagers de l’information de référence est vraiment efficace, la production de cette information de référence peut se faire plus efficacement dans un organisme spécialisé. Cela signifie qu’une garantie d’existence d’une information de référence en bien commun ne peut être obtenue que par une pression exercée sur les organismes publics ou à travers une législation imposant un statut de biens communs à l’information issue du secteur public.
  • Moteurs de recherche et autre service nécessitant un traitement quasi temps-réel de grands ensembles d’informations distribuées. Le problème posé par ces services n’est pas celui des effets de réseaux. En réalité le coût de passage à un autre fournisseur de service que Google est très bas. Le problème est : existe-t-il un fournisseur de services qui se comporte convenablement&nbnsp;? Jusqu’à présent , Google s’est comporté d’une façon bien plus acceptable que les autres fournisseurs en ce qui concerne le servioce fourni à l’usager (voir la démonstration qu’en fournit Yochai Benkler dans son ouvrage The Wealth of Networks , pages 285-289). C’est ce qui fait que nous utilisons presque tous Google. Mais le comportement de Google lorsqu’il fournit des services à des tiers à propos des usagers est beaucoup plus sujet à caution. Un moteur de recherche a besoin pour exister d’une extraordinaire quantité de communication dans les réseaux. Il est considérablement plus facile de l’effectuer d’avance que de la faire « sur demande » pour une requête. Cela signifie que même si vous avez tous les logiciels nécessaires sous licence libre, même si vous avez tout le savoir-faire pour l’utilisation de ces logiciels, il vous faut encore un temps et des financements considérables pour pouvoir devenir fournisseur de services. Est-il bon de disposer de logiciels libres d’exploration, d’indexation et de requêtes  ? Bien sûr, mais cela ne constitue qu’une petite part de ce qui est nécessaire. Comment peut-on être sûr qu’il y aura au moins un fournisseur de sevrices qui se comporte convenablement ? Cory Doctorow a récemment écrit un texte traduit en français par Valérie Peugeot et Hervé Le Crosnier qui vous donnera une très bonne idée de ce qui se passe quand il n’y en a aucun. La réponse traditionnelle lorsqu’on redoute qu’un service convenable n’existe pas est de débrouiller pour qu’un gouvernement démocratique le fournisse. Néanmoins, cela ne parait pas toujours garantir un comportment convenable, surtout par les temps qui courrent. La réponse à court terme pourrait relever de la diplomatie, mais il vaut mieux avoir des solutions de rechange si elle échoue, per exemple parce que d’autres diplomates représentent des investisseurs ou des agences de sécurité conduisent une diplomatie plus énergique. Les solutions de rechange pourraient reposer sur deux éléments : la réglementation (par exemple la réglementation sur la protection des données que Google tente d’éviter en définissant ses propres règles) et l’organisation par les gouvernements de la collecte de fonds mutualisés (auprès des populations) mais en laissant aux citoyens le choix de qui recevra ces sommes pour conduire les actions correspondantes. Cela peut se faire de nombreuses façons différentes. Les intermédiaires compétitifs proposés par Jamie Love et Tim Hubbard pour le domaine de la R&D médicale sont un concept séduisant pour le financement des moteurs de recherche, ou en deviendront un le jour où les conséquences des modèles commerciaux fondés sur la publicité se montreront dans toute leur ampleur. Pour une discussion plus générale des mécanismes de mutualisation, voir cet article. Est-ce que les « services ouverts » de Tim O’Reilly pourraient servir à quelque chose pour le problème discuté dans le cas de smoteurs de recherche&nbsp? Cela m’étonnerait parce que les questions sous-jacentes dépassent largement les questions d’ »ouverture ». Il s’agit de droits fondamentaux, de droits si fondamentaux que la diplomatie marchera peut-être puisque beaucoup de gens attachent de l’importance aux droits fondamentaux. Mais si la diplomatie ne marche pas, nous ne pouvons pas nous permettre de nous retrouver sans solution.

Enfin, quand est-il des sites de réseaux sociaux ? Dans la table ci-dessus, ils sont listés comme « mixtes ». L’information de ces services est produite par les individus. Mais pour ceux qui s’y intéressent, une part de la fonctionnalité fournie par les services nécessite un accès à des informations produites par de nombreuses sources différentes. Malgré cette dualité, il me semble qu’un système de réseau pair à pair très décent pourrait être construit, sans que les limites physiques qui font obstacle aux moteurs de recherche pair à pair ne s’y opposent.


[*] Cette distinction n’est pas stable : l’existence de logiciels de production de contenus sur le Web encourage leur production collective. Cependant, à un stade donné de la pratique sociale (par exemple d’écriture de textes ou de réalisation de vidéos), la distinction est claire, et toute évolution en la matière est lente parce qu’elle suppose des moodifications de comportements sociaux bien installés.

This post is also available in: English

2 commentaires

Laisser un commentaire