R.I.P. Business Intelligence – Ordre d'informaticiens

Le meilleur moyen d’avoir raison dans l’avenir est, à certaines heures, de savoir se résigner à être démodé.

Cette citation a été prononcée par Joseph Ernest Renan il y a plus de 150 ans. Et pourtant, elle semble définir parfaitement la période actuellement traversée par le domaine de l’informatique décisionnelle ou Business Intelligence (BI en anglais).

Dépassée par le machine learning, l’IA, la data science, le DevOps, ne serait-elle pas devenue obsolète ? Au fond, reste-t-il encore de la place pour la BI ? Vous le verrez, contrairement à ce que l’on pourrait croire, l’avenir n’est pas si sombre. C’est que nous allons tâcher de démontrer. Alors commençons par le début

État des lieux

La BI (Business Intelligence) semble donc passée de mode d’après un certain nombre d’observateurs. Cependant, si regardons en arrière, nous allons nous rendre compte que sa proposition de valeur reste très actuelle. Mais avant cela, techniquement, il faut savoir que la BI se définie par l’ensemble des éléments suivants :

Flux : Faculté de préparation des données
Stockage : Faculté d’extraction et de modélisation des données dans un entrepôt de donnée, un datamart, etc.
Analytique : Faculté de présenter et manipuler les données
Analytique avancée : Faculté d’extraire de l’information depuis des données brutes.

Il est également important d’inclure tous les efforts afin de modéliser les processus (ex data mining et machine learning appliqués aux processus métier). Nous identifions cette faculté sous le terme analytique avancée. Il est intéressant de préciser qu’on peut le retrouver sous le terme de data science/data mining, certes un peu galvaudé par quelques années de marketing intensif.

In fine, vous avez ci-dessus la vision de l’offre « BI ». Très proche, finalement, de celle rencontrée il y a quelques années et, surprise, c’est toujours la vision la plus complète et exhaustive !

Néanmoins, des choses ont changé, ces quelques variations ont eu pour attribut de complexifier la lecture de l’offre et la compréhension des enjeux, notamment :

L’offre BI est parfois cantonnée uniquement à l’aspect analytique, en effet, un « consultant BI » n’est-il pas souvent qu’un « consultant en reporting » ?
La modélisation de l’entrepôt de données est très souvent absente ou incomplète, en effet, l’existence même du « Data Lake » rempli de données « non-structurées » ne le prouve-t-elle pas ?
L’analytique avancée (ou data science/data mining) ne se mélange pas ou peu avec les autres domaines.
Même constat avec les flux et le data engineering.

Une fois ces constats faits, à savoir vision de la BI simplifiée et évolutions/nouveautés, il devient nécessaire de reprendre point par point chaque domaine : flux, stockage, analytique & analytique avancée.

En effet, vous trouverez ci-dessous une (re)définition de la BI telle que théorisée initialement par les différents spécialistes en la matière combinée avec notre expertise, fruit d’une mise en pratique de plusieurs dizaines de projets BI.

Flux

C’est le domaine compliqué & technique par excellence. Fort heureusement, la plupart des sociétés après avoir rencontré des problèmes de traitement de données commence à adopter des outils de qualité de données. Ils peuvent varier de « détection des cas singuliers » jusqu’à « correction automatique ». Difficile de sur-estimer l’importance de ce processus, mais certains sujets restent sciemment ignorés, notamment :

Les flux incrémentaux de traitement. C’est complexe mais cette approche offre la possibilité d’économiser sur la puissance des serveurs tout en traitant plus rapidement encore plus de données. Pour aller plus loin, voir cet article.
Le rapprochement d’information cross-système (ex dédoublonnage, matching). Rien d’inédit, pourtant, nous constatons régulièrement des approximations ou de fausses bonnes solutions. Résultat : les données manipulées par les utilisateurs ne sont pas assez fiables pour être analysées.
La complexité de la mise en place des flux de données. Souvent l’importance de ce sujet est sous-estimée et de ce fait, beaucoup de sociétés s’orientent vers des solutions de « Data Virtualisation » sans en comprendre les limites techniques.
Le bon choix. Est-ce que l’ETL est le meilleur choix pour les flux incrémentaux ? Est-ce que l’ELT peut garantir les performances ? Est-ce que les outils comme Spark peuvent être utilisés pour toutes les volumétries ?

Entrepôt de données

Ces dernières années, le nombre d’approche (et les différentes solutions associées) ne cesse de croître. Nous pouvons trouver :

Les bases analytiques classiques (column store : IBM DB2 BLU, Sybase IQ, Vectorwise, etc)
Les bases in-memory (Hana, Exasol, etc)
Les « grands stockages » (Hive, BigSQL, etc)
Les appliances (Pure System, Exadata)

Malgré cette diversification, il reste des points à résoudre :

Les sociétés continuent d’utiliser les bases transactionnelles pour les charges analytiques ou bien (comme énoncé précédemment) choisissent des outils de data virtualisation. Les résultats sont souvent identiques – la solution est lente, nous faisons donc face à des utilisateurs souvent mécontents. Nous comprenons la prudence envers les nouvelles solutions, mais le stockage en colonne est un « must have », sans aucun doute.
Suite aux travaux de Ralph Kimball, un autre biais a été mis en évidence : les décideurs voient dans le modèle en étoile/flocon comme un incontournable pour la réussite de leur projet BI. C’est partiellement vrai. En effet, si vous utilisez des outils qui n’en profitent pas, vous pouvez probablement alléger les conditions. Le père de la BI, Bill Inmon, disait que l’ODS (operational data store) peut être LA source de nombreuses analyses (il n’est pas toujours nécessaire de construire un entrepôt de données).
Peu de personnes connaissent la définition d’ODS en tant que vue unifiée de données (c.a.d rapprochée, dédoublonnée, propre). Cet méconnaissance se répercute souvent sur l’architecture BI mise en place. À titre indicatif, encore récemment, l’article sur la version française de Wikipédia ne donnait pas la même définition de l’ODS que la version anglaise.

Analytique

L’arrivée d’outils qui simplifie l’analyse de données par les utilisateurs finaux (souvent des utilisateurs métiers), citons notamment Tableau, Spotfire, PowerBI a réussi à débloquer une situation devenue critique avec les outils historiques. Nous pensons que cette démocratisation de l’accès à l’analyse de données va durer voire même s’amplifier. Le domaine du « reporting » se transforme et cette métamorphose est bien plus radicale que les changements que nous avons pu constater dans les domaines des flux et de l’entrepôt de données.

Point important à prendre en compte, quand vos utilisateurs créent leurs propres rapports, vous souhaitez leur proposer la meilleure performance au niveau des bases de données. De ce fait, nous conseillons de se tourner vers l’implémentation des bases de données analytiques.

Analytique Avancée

Comme nous l’avons déjà noté, l’analytique avancée se trouve actuellement « au top » de la vague, la « hype » actuelle du data scientist est d’ailleurs bien résumée par un article au 2nd degré rédigé par Paul Peton (pour le retrouver sur Medium).

Les modèles populaires d’aujourd’hui sont nombreux, toutefois, est-ce que cela veut dire pour autant qu’on constate un avancement majeur dans ce domaine du point de vue business/métier ? En réalité non, la plupart de modèles que nous rencontrons actuellement ont probablement été conçu il y a 5, 10 ou même 20 ans (nous pouvons simplement exclure les cas de la recherche dans l’AI « pure »). Alors quelle différence ? Elle est à chercher du côté de l’accessibilité. Aujourd’hui, à la différence d’hier, en quelques lignes de code Python basé sur des packages gratuits, vous pouvez disposer d’un modèle.

Nous pensons que, comme pour la démocratisation des cas d’analyse de données dit classiques, il y aura (bientôt ?) un changement important : oui, les modèles complexes doivent être conçus par des spécialistes, cependant, une grande majorité des prédictions peuvent tout aussi bien être produite par les utilisateurs eux-mêmes car justement beaucoup de data scientists ne font pas de « rocket science ».
Pour aller plus loin dans la perspective, « l’alchimie » de modélisation (comme c’était bien nommé par l’un des DS) deviendra une science exacte. Probablement à la base de la statistique ? C’est en tout cas l’avis d’Edwin Thompson Jaynes qui apporte la preuve mathématique que la statistique est la solution « optimale » pour la modélisation d’incertitude (cf : Probability Theory: The Logic of Science)

Conclusion

Approchons-nous de la fin de l’ère de la « BI » ?

De notre côté, c’est tranché, absolument pas ! Elle change de nom, de forme, d’outil (et ce n’est pas toujours pour son bien), en quelque sorte, elle évolue & se transforme mais elle reste centrale. En réalité, la BI, à l’heure du big data, reste plus forte et importante que jamais. Il suffisait simplement d’en rappeler la définition …

NB : Si dans votre projet BI, vous rencontrez des difficultés dans le choix d’une architecture ou bien que la qualité de données est votre priorité …