ComptaNat.fr
 
  Le site de la comptabilité nationale  
 
Naviguer Quelques outils

Excel et les bases de données

Pourquoi travailler avec des bases de données

Si l'on se place du point de vue informatique, le travail des comptables nationaux présente deux caractéristiques essentielles :

  • Il porte sur des données nombreuses ;
  • Les comptes se présentent sous la forme de tableaux.

Pour travailler sur des données nombreuses, les bases de données sont l'outil idéal, pour travailler sur des tableaux il est difficile d'imaginer mieux qu'un tableur. Un logiciel qui permettrait de combiner ces deux outils serait donc particulièrement bien adapté au travail du comptable national. Or,il se trouve qu'Excel, qui est fondamentalement un tableur, permet également de travailler en relation avec des bases de données. Si l'on ajoute à cette propriété remarquable la capacité de programmation on obtient un outil qui peut s'avérer extrêmement puissant entre les mains d'un comptable national expérimenté.

Excel peut donc travailler avec de nombreuses bases de données. Notons, cependant, que l'un des inconvénients des bases de données actuelles est l'inexistence d'un format de fichier universel, si bien qu'il est parfois difficile d'utiliser les résultats produits par un gestionnaire de base de données avec un autre gestionnaire de bases de données. Ceci peut s'avérer un inconvénient non négligeable pour les comptables nationaux amenés à travailler dans différents pays. Aussi, l'une des solutions possibles est l'utilisation de fichiers textes de format CSV.

Les fichiers CSV sont des fichiers texte contenant des données séparées par un point-virgule. Il s'agit ici du format européen car le format américain utilise la virgule comme séparateur (d'où le nom Comma Separator Values). Les fichiers CSV permettent de stocker des données qui pourront être utilisées aussi bien par Excel que par n'importe quel gestionnaire de bases de données.

Utiliser des fichiers CSV dans Excel présente quatre grands avantages :

  • Il est possible de travailler avec des fichiers de plus de 65536 lignes, limite des feuilles de calcul Excel.
  • Il est possible d'appliquer des requêtes SQL à ces fichiers, ce qui permet d'utiliser Excel comme un gestionnaire de bases de données.
  • Ces fichiers sont, comparativement à d'autres formats, très compacts. C'est particulièrement vrai pour les fichiers organisés en hypercubes qui contiennent essentiellement des codes, c'est-à-dire des textes.
  • Les fichiers permettent d'échanger facilement des données avec d'autres programmes car le format CSV est universel.

Les fichiers CSV n'ont cependant pas que des avantages. Ainsi, on ne peut pas les modifier aussi facilement avec des requêtes SQL que des fichiers utilisant d'autres formats. En effet, les enregistrements étant de longueur variable et écrits les uns à la suite des autres, il n'est pas possible, par exemple, de remplacer un enregistrement par un autre plus long sans modifier totalement le fichier. Aussi, la méthode normale pour corriger un enregistrement dans un fichier CSV est-elle d'annuler l'ancien enregistrement par un enregistrement de signe contraire avant de passer le nouvel enregistrement. Cette contrainte n'est pas nécessairement un inconvénient en comptabilité nationale car elle oblige à conserver la trace des corrections, comme c'est le cas en comptabilité d'entreprise. L'autre inconvénient est l'existence de deux formats de fichiers CSV, le format d'origine avec la virgule comme séparateur de données et le point pour séparer la partie décimale des nombres, le format européen qui utilise le point-virgule comme séparateur de données et la virgule pour les décimales. Aussi, pour limiter les risques d'erreur, est-il préférable de ne travailler qu'avec des entiers.

Créer des fichiers CSV

Nous ne traiterons ici que des fichiers CSV structurés en hypercubes. Le moyen le plus simple de créer un petit fichier CSV est de l'écrire dans une feuille Excel et de le sauvegarder au format CSV. La première ligne doit contenir les noms des variables et les suivantes les enregistrements. Par exemple, le fichier peut être constitué de la manière suivante :

Il peut être sauvegardé au format CSV avec le menu Enregistrer sous en sélectionnant l'option CSV (séparateur point-virgule).

Mais, le plus souvent, on dispose d'un tableau Excel que l'on souhaite transformer en fichier CSV structuré en hypercube. Supposons, par exemple, que nous souhaitions transformer le tableau ci-dessous en fichier CSV.

On pourra générer dans le répertoire c:\User\Essais un fichier CSV nommé Fichier.csv, structuré en hypercube, à l'aide de la macro suivante :

Dans cette macro, l'instruction
Open "c:/user/Essais/Fichier.csv" For Output As #1
ouvre dans le répertoire C:\User\Essais un fichier texte de nom Fichier.csv. La clause Output indique que l'on va écrire dans ce fichier texte, si un fichier du même nom existait déjà il serait écrasé. La clause As #1 indique que le fichier sera repéré dans toute la macro par son numéro qui est ici 1. Nous aurions pu choisir pour numéro tout entier compris entre 1 et 511.

L'instruction Print #1, "DA;OP;AE;VAL" sert à écrire dans le fichier dont le numéro est 1, c'est-à-dire dans le fichier Fichier.csv, le texte DA;OP;AE;VAL. Ce texte est placé dans la première ligne du fichier et il permet de déterminer le nom des champs de données.

On va ensuite créer des variables correspondant à chacun des champs. Ainsi, on affecte à la variable op la valeur OPB1 qui est commune à tous les enregistrements. On crée ensuite la variable objet f représentant la feuille Essai dans laquelle est placé le tableau, puis on lit, grâce à deux boucles imbriquées, les valeurs des variables ae, da, va représentant les différents champs. Remarquons que nous utilisons ici la variable va et non val car val est un mot réservé qui ne peut être utilisé comme nom de variable.

On va ensuite constituer le texte qui sera envoyé dans le fichier et qui correspond à une ligne de données. Les différentes variables sont concaténées grâce à l'opérateur &. Des points-virgules correspondant aux séparateurs de données sont insérés entre les variables. On a introduit la condition If va <> 0 car il est inutile de saisir des enregistrements avec des valeurs nulles. A la fin, il est obligatoire de fermer le fichier par l'instruction Close #1 pour pouvoir l'utiliser par la suite.

Regrouper des fichiers CSV

Il est souvent intéressant, lorsqu'on travaille avec des données issues de plusieurs sources, de pouvoir regrouper en un seul plusieurs fichiers CSV. Cela est particulièrement facile lorsque les fichiers ont la même structure. Supposons, par exemple, que nous cherchions à regrouper le fichier fichier.csv avec les fichiers fich1.csv et fich2.csv présentés ci-dessous :

Le programme ci-dessous permet de créer un fichier fichtout.csv qui regroupe les trois fichiers.

Remarquons, dans ce programme, comment est gérée la première ligne qui correspond aux intitulés des variables. Elle est, en effet, envoyée tout d'abord dans le fichier de sortie, puis, dans chaque fichier de lecture, la première ligne est lue par l'instruction Line input mais n'est pas écrite. Dans le cas contraire, on se retrouverait avec plusieurs lignes d'intitulés parmi les données.

Nous trouvons le fichier fichtout.csv suivant :

Lire des fichiers CSV avec des tableaux croisés dynamiques

Le moyen le plus simple pour lire un petit fichier CSV est de l'ouvrir avec Excel, dans ce cas il apparaîtra avec les champs placés dans des colonnes distinctes. Mais les programmes du passage aux comptes utilisent des fichiers CSV de plus de 65536 lignes qui ne peuvent être lus de cette manière, il faut donc utiliser d'autres méthodes et parmi elles l'utilisation d'un tableau croisé dynamique apparaît comme l'une des plus simples.

Pour le montrer, nous allons donc lire notre fichier Fichier.csv avec un tableau croisé dynamique. Plaçons-nous donc dans une feuille Excel et dans le menu Données choisissons l'option Rapport de tableau croisé dynamique. Cochons alors Source de données externe comme ci-dessous :

Cliquons sur Suivant puis sur Lire les données. Apparaît alors le cadre suivant qui peut présenter une liste plus ou moins longue de noms.

Chaque nom de la liste correspond à une source de données caractérisée par le répertoire dans lequel se trouvent les données et leur type, par exemple Access, Dbase, dans notre cas il s'agira de base de données de type fichier texte CSV. La première fois, il faut définir un nom correspondant à la source que nous voulons utiliser. Puisque nous ne travaillons ici qu'avec des fichiers de type CSV, il est judicieux que le nom choisi fasse référence au répertoire sur lequel se trouve les données. Par exemple, puisque le fichier Fichier.csv se trouve dans le répertoire C:\User\Essais nous choisirons le nom UserEssais pour nous connecter.

Sélectionnons donc Nouvelle source de données et cliquons sur OK. Le cadre suivant apparaît :

Entrons le nom retenu dans la première ligne puis sélectionnons l'option MicroSoft Text Driver (*.txt,*.csv) comme suit :

Cliquons sur le bouton Connexion puis décochons Utilisation du répertoire en cours Cliquons sur le bouton Sélectionner le répertoire, nous pouvons alors choisir d'abord le lecteur puis le répertoire.

Cliquons sur OK puis à nouveau sur OK deux fois, nous voyons apparaître le cadre suivant :

Dans notre exemple le fichier Fichier.csv est le seul disponible mais ce n'est pas nécessairement le cas et il faut alors sélectionner le fichier que nous voulons lire. Cliquons sur la flèche à droite et nous voyons apparaître dans le cadre droit les champs du fichier CSV. Cliquons alors sur Suivant nous voyons alors apparaître un cadre qui nous permet de filtrer les données. Si nous désirons conserver toutes les données nous cliquons sur Suivant puis à nouveau sur Suivant car trier préalablement les données n'a aucun intérêt dans un tableau croisé dynamique. On clique enfin sur Terminer puis sur Suivant. On arrive alors sur le cadre suivant :

Pour travailler efficacement avec les fichiers CSV nous allons d'abord aller dans Options. Nous voyons apparaître le cadre suivant :

Quand on travaille avec de gros fichiers CSV il est intéressant de décocher l'option Enregistrer les données et la mise en forme. En effet, lorsque cette option est sélectionnée les données sont enregistrées avec le classeur Excel, ce qui peut donner un classeur occupant une mémoire importante. Décocher cette option permet de rendre le classeur Excel indépendant des données du fichier CSV comme un lecteur de CD-ROM est indépendant du CD-ROM qu'il lit. On peut également choisir les autres options en fonction du tableau que l'on souhaite obtenir. Cliquons sur OK et passons à Disposition. Nous obtenons le tableau ci-dessous :

Dans la partie droite on voit les différents champs du fichier CSV. On va faire glisser ces champs dans les parties correspondantes du tableau de gauche. Le champ VAL qui est le seul champ numérique doit nécessairement être placé dans la partie DONNEES du tableau. On peut, par exemple, mettre le champ OP dans la partie PAGE, DA dans COLONNE et AE dans LIGNE comme ci-dessous :

En cliquant sur OK puis Terminer on obtient dans la feuille Excel le tableau suivant :

Comme le total des années n'est pas pertinent on peut aller sur la cellule Total de la dernière colonne, cliquer avec le bouton droit de la souris et, dans le menu contextuel, choisir l'option Masquer. La colonne Total disparaît alors. On peut également aller dans la liste déroulante de OP et sélectionner OPB1. Le tableau devient :

On peut, de cette manière lire des fichiers de plus de 65536 lignes en répartissant les données sur plusieurs colonnes. On peut aussi filtrer les données pour ne sélectionner que celles qui nous intéressent. La seule contrainte réelle de taille est celle imposée par la mémoire vive de l'ordinateur. En effet, pour pouvoir refaire tous les calculs très rapidement à chaque modification du tableau, Excel stocke l'ensemble des données sélectionnées dans la mémoire vive de l'ordinateur.

Travailler avec des requêtes SQL dans un tableau croisé dynamique

L'un des grands intérêts de l'utilisation des fichiers CSV avec les tableaux croisés dynamiques est d'ouvrir l'accès aux requêtes SQL et donc au monde des bases de données relationnelles. Supposons, par exemple, que nous cherchions à regrouper les activités en utilisant la table de passage ci-dessous qui montre comment passer du niveau G de la nomenclature au niveau F :

Enregistrons cette table au format CSV dans le répertoire Essais puis fermons le classeur Excel. Ouvrons un nouveau classeur Excel, puis dans le menu Données choisissons Tableau croisé dynamique puis Source de données Excel, cliquons sur Suivant puis Lire les données, nous voyons apparaître dans la liste des bases de données UserEssais que nous sélectionnons. Si nous cliquons sur OK nous voyons apparaître le cadre suivant :

En sélectionnant successivement les deux fichiers et en utilisant la flèche vers la droite on fait apparaître dans la partie droite la liste des champs des deux fichiers. En cliquant sur Suivant on s'afficher un message indiquant que l'assistant requête ne peut joindre les tables de votre requête. Cliquons sur OK et nous parvenons dans Microsoft Query.

Nous allons établir un lien entre le champ AE du fichier Fichier et le champ AEG du fichier TablePas car ces deux champs se correspondent. Pour cela, nous sélectionnons le champ AEG et nous le faisons glisser sur AE de manière à faire apparaître un lien entre les deux. Si nous cliquons sur l'icône SQL, nous accédons à la requête SQL que nous sommes en train de créer et que nous pouvons éventuellement modifier.

En cliquant sur OK puis, dans le menu Fichier en sélectionnant Renvoyer les données vers Microsoft Excel puis Suivant nous retombons sur les menus des tableaux croisés dynamiques. Nous pouvons, par exemple, retenir la disposition suivante :

Nous obtenons le tableau ci-dessous qui nous donne une agrégation au niveau F de la nomenclature.

Nous pouvons maintenant travailler avec ce tableau dynamique en sélectionnant, par exemple, une année.

Travailler avec des requêtes SQL dans Visual Basic

Il est possible de travailler sur des fichiers CSV sans passer par les tableaux croisés dynamiques. Pour cela, on peut utiliser les possibilités d'interrogation des bases de données que donne Visual Basic. Avant toute chose il convient de paramétrer Visual Basic. Supposons que nous voulions créer la macro Lire pour lire le fichier Fichier.csv. Allons-donc dans le menu Outils puis Macros et Macro. Tapons Lire dans Nom de la macro du cadre ci-dessous :

Cliquons sur Créer et nous arrivons dans l'éditeur Visual Basic qui se présente ainsi :

Allons dans le menu Outils et choisissons l'option Références, le cadre ci-dessous s'ouvre alors :

Nous devons sélectionner dans la liste les éléments suivants :

  • Microsoft ActiveX Data Objects 2.8 Library
  • Microsoft ActiveX Data Objects Recordsets 2.8 Library
  • Microsoft ADO Ext. for DDL and Security

Cliquons sur OK, nous pouvons vérifier que les options ont bien été enregistrées en retournant dans le menu Outils puis dans Références, le cadre doit se présenter ainsi :

Dans notre macro, nous devons définir la connexion à notre source de données et un objet Recordset, objet qui est destiné à recevoir les enregistrements générés par notre requête SQL. Nous allons donc définir deux variables, l'une destinée à définir la connexion et que nous appellerons, par exemple, Connex, et l'autre pour définir le recordset et que nous appellerons Record. Pour cela nous utiliserons les instructions suivantes :

Dim Connex As ADODB.Connection
Dim Record As ADODB.Recordset

Set Connex = New ADODB.Connection
Set Record = New ADODB.Recordset

Puisqu'une connexion se définit par le nom du répertoire où se trouvent les données, il est pratique de placer le nom de ce répertoire dans une variable que nous appellerons RepertNom. La connexion sera définie de la manière suivante :

Repertnom = "C:\User\Essais\"

Connex.ConnectionString = _
"ODBC;DBQ=" & Repertnom & ";DefaultDir=C:\; " & _
"Driver={Microsoft Text Driver (*.txt; *.csv)}; " &
_ "DriverId=27;Extensions=txt,csv,tab,asc;FIL=text;MaxBufferS"

Connex.Open

Le signe " _" (espace puis espace souligné) est utilisé pour présenter sur plusieurs lignes une instruction trop longue pour tenir sur une seule, son utilisation est facultative et ne sert qu'à améliorer la lisibilité du programme. On utilise ConnectionString pour définir le répertoire et le type de base de données utilisé, ici des bases CSV. L'instruction Open permet d'ouvrir la base de données afin de permettre son utilisation. Il nous faut maintenant écrire la requête SQL qui nous permettra de lire le fichier CSV. Pour des raisons de lisibilité nous allons décomposer la requête en ses différentes composantes que nous allons placer dans des variables. Nous allons ensuite la lancer de la manière suivante :

sel = " SELECT f.DA,f.AE,f.OP,f.VAL "
fro = " FROM fichier.csv f "
Record.Open sel & fro, Connex

L'instruction Record.Open ouvre le recordset Record et exécute la requête placée dans la chaîne de caractères définie par la concaténation des variables sel et fro, la base de données utilisée étant celle définie par la connexion Connex. Remarquons que nous avons laissé des espaces à la fin des variables sel et fro afin que la concaténation n'agrège pas des instructions. Le résultat de la requête, c'est-à-dire les enregistrements recherchés, a été placé dans l'objet recordset Record que nous devons lire. Supposons que nous cherchions à afficher le résultat dans la feuille Données, nous lirons le recordset de la manière suivante :

Set f = Sheets("Données")
Record.MoveFirst
i = 1
Do While Not Record.EOF
    f.Cells(i, 1) = Record("DA")
    f.Cells(i, 2) = Record("AE")
    f.Cells(i, 3) = Record("OP")
    f.Cells(i, 4) = Record("VAL")
    i = i + 1
    Record.MoveNext
Loop
Record.Close
Connex.Close

Pour lire le recorset on se place d'abord sur le premier enregistrement en utilisant l'instruction MoveFirst puis on fait une boucle qui va lire les enregistrements suivants jusqu'à la fin qui est signalée par Record.EOF (EOF voulant dire End of file). Record("DA") renvoie la valeur du champ DA, Record.MoveNext permet de passer à l'enregistrement suivant, Loop marque la fin de la boucle, Record.Close ferme le recordset et Connex.Close ferme la connexion. Si on lance ce programme on obtient sur la feuille Données les enregistrements de Fichier.csv. Notons que les intitulés des champs n'apparaissent pas car ils ne font pas partie des enregistrements.

Le programme complet est le suivant :

Sub Lire()
Dim Connex As ADODB.Connection
Dim Record As ADODB.Recordset

Set Connex = New ADODB.Connection
Set Record = New ADODB.Recordset

Repertnom = "C:\User\Essais\"

Connex.ConnectionString = _
"ODBC;DBQ=" & Repertnom & ";DefaultDir=C:\; " & _
"Driver={Microsoft Text Driver (*.txt; *.csv)}; " & _
"DriverId=27;Extensions=txt,csv,tab,asc;FIL=text;MaxBufferS"

Connex.Open
sel = " SELECT f.DA,f.AE,f.OP,f.VAL "
fro = " FROM fichier.csv f "
Record.Open sel & fro, Connex

Set f = Sheets("Données")
Record.MoveFirst
i = 1
Do While Not Record.EOF
     f.Cells(i, 1) = Record("DA")
     f.Cells(i, 2) = Record("AE")
     f.Cells(i, 3) = Record("OP")
     f.Cells(i, 4) = Record("VAL")
     i = i + 1
     Record.MoveNext
Loop
Record.Close
Connex.Close

End Sub

Générer un fichier CSV à partir d'une requête SQL

Il n'est pas possible de générer directement un fichier CSV à partir d'une requête SQL car, si les fichiers textes ont la qualité d'être compacts, ils sont aussi difficiles à modifier par un logiciel gestionnaire de base de données. On combinera donc deux techniques pour générer un fichier CSV comme résultat d'une requête SQL, la première est celle que nous venons d'exposer et qui consiste à placer le résultat de la requête dans un recordset, la seconde qui consiste à créer le fichier CSV en lisant le recorset.

Supposons que nous cherchions à créer à partir du fichier Fichier.csv un fichier CSV qui ne contienne que les valeurs agrégées au niveau F. Le programme se présentera alors de la manière suivante :

Sub Lire()
Dim Connex As ADODB.Connection
Dim Record As ADODB.Recordset

Set Connex = New ADODB.Connection
Set Record = New ADODB.Recordset

Repertnom = "C:\User\Essais\"

Connex.ConnectionString = _
"ODBC;DBQ=" & Repertnom & ";DefaultDir=C:\; " & _
"Driver={Microsoft Text Driver (*.txt; *.csv)}; " & _
"DriverId=27;Extensions=txt,csv,tab,asc;FIL=text;MaxBufferS"

Connex.Open
sel = " SELECT f.DA,t.AEF,f.OP,sum(f.VAL) as VAL "
fro = " FROM fichier.csv f, TablePas.csv t "
whe = " WHERE f.AE=t.AEG "
gro = " GROUP BY f.DA,t.AEF,f.OP "
Record.Open sel & fro & whe & gro, Connex

Open "C:\User\Essais\Agreg.csv" For Output As #1
Print #1, "DA;AE;OP;VAL"
Set f = Sheets("Données")
Record.MoveFirst
Do While Not Record.EOF
     da = Record("DA")
     aef = Record("AEF")
     op = Record("OP")
     va = Record("VAL")
     enr = da & ";" & aef & ";" & op & ";" & va
     If va <> 0 Then Print #1, enr
     Record.MoveNext
Loop
Record.Close
Connex.Close
Close #1

End Sub

Nous obtenons alors le fichier suivant :

Travailler avec des bases Access

Il est également possible de travailler avec de véritables bases de données, par exemple de type Access. Pour cela, le mieux est certainement de créer la base de données et ses tables en utilisant le logiciel Access puis de travailler avec elles à partir d'Excel. La manière de travailler sera, toutefois, légèrement différente de celle que nous avons présentée pour les fichiers CSV. L'exemple ci-dessous correspond au chargement d'une table Access structurée en hypercube à partir d'un tableau Excel.

Sub SaisieQuest()
'Suppose avoir sélectionné dans Tools/References :
'Microsoft ActiveX Data Objects 2.8 Library
'Microsoft ActiveX Data Object Recordsets 2.8 Library
'Microsoft Ado Ext for DDL and Security

Dim Ctexte As String * 300
Dim cnnConn As ADODB.Connection
Dim rstRecordset As ADODB.Recordset
Dim cmdCommand As ADODB.Command

Rep = "H:\MyDocuments\QuestGNI\" ' Nom du répertoire où se trouve la base de données
NomBase = "questGNI.mdb" ' Nom de la base de données

' Ouvre la connexion.
Set cnnConn = New ADODB.Connection
With cnnConn
.ConnectionString = _
"Provider=Microsoft.Jet.OLEDB.4.0"
.Open Rep & NomBase
End With

Set cmdCommand = New ADODB.Command
Set cmdCommand.ActiveConnection = cnnConn
Set rstRecordset = New ADODB.Recordset

'-----------------------------------------------------------------------------------

anq = Sheets("Saisie").Cells(3, 2) ' Année du questionnaire
RepD = "O:\CN\GNP-GNI questionnaire " & anq & "\received\" ' Nom du répertoire de données

For Each pays In Array("Pays1", "Pays2", "Pays3") ' Liste des pays
For k = 8 To 38
fic = RepD & "q" & anq & pays & ".xls" ' Nom du fichier du questionnaire
Workbooks.Open Filename:=fic ' Ouvre le questionnaire

'-------------------------------------------------------------------------------------

' Commence par vider la table QDATA avant d'ajouter les nouveaux enregistrements
' La table est vidée pour le pays et l'année saisies
With cmdCommand
.CommandText = "delete from QDATA where PAYS='" & pays & "' and ANQ='" & anq & "'"
.CommandType = adCmdText
.Execute
End With

Set f = Sheets("Quest" & anq & " (" & pays & ")") ' Feuille des données de l'année du questionnaire
For i = 7 To 44
coli = f.Cells(i, 1)
If coli <> 0 Then
coesa = f.Cells(i, 3)
For j = 4 To 9 anda = Mid(f.Cells(4, j), 1, 4) 'Saisie des années de la série avec limitation de l'année à 4 caractères
va = Val(" " & f.Cells(i, j)) 'Saisie des valeurs avec élimination des espaces entrés comme des 0
Ctexte = "insert into QDATA values('" & pays & "','" & anq & "','" & "','" & anda & "','" & coli & "','" & coesa & "'," & va & ")"
If va <> 0 Then
With cmdCommand
.CommandText = Ctexte
.CommandType = adCmdText
.Execute
End With
End If
Next j
End If
Next i
ActiveWindow.Close ' Ferme le questionnaire

'Next pays
' Ferme la connexion et vide les variables
cnnConn.Close
Set cmdCommand = Nothing
Set rstRecordset = Nothing
Set cnnConn = Nothing

End Sub

Ce texte n'engage que son auteur : Francis Malherbe