[Version du 09/03/2014 - revu le 07/12/2015]
Dans ce document, on recense toutes les consignes issues des phases de structuration, de correction et de vérification des textes (modèles detcol1, detcol2, detcol3, detcol4). Certaines consignes ayant évoluées au cours du temps, il était nécessaire de spécifier le "cahier des charges" final pour la préparation des textes dans Word.
Découpage physique du texte • Bloc – Saut de ligne – Saut de ligne permanent – Page – Page d'insert – En-tête et pied de page
Titres, pseudo-titres et périphériques • Utilisation des styles – Titre – Titre intégré – Pseudo-titre – Pseudo-titre intégré – Périphérique
Traitement des notes • Cas général – Note hors "bas de page" – Appel manquant – Appels multiples – Notes dans le corps de texte
Images et tableaux • Cas simples – Cas complexes – Liste de mots-clés – Élément OBJ
Texte spécial • Cas simples – Cas complexes – Élément SPE
Paragraphes complexes • Regroupement de texte – Objet complexe encapsulé – Élément DIV – Regroupement de blocs
Amorces • Cas général – Amorces particulières
Saisie du texte • Jeu de caractères – Erreur d'édition – Ponctuation – Césure – Ajout – Questions en suspens
Annexes • Contraintes formelles – Tableau synthétique du formatage
Les sauts de paragraphe, les sauts de ligne et les sauts de page définissent le découpage physique du texte conformément au fac-similé.
Les sauts de paragraphe délimitent les blocs que l'on peut voir comme les contextes logiques minimaux, par opposition aux contextes logiques élargis que sont les regroupements OBJ, SPE et DIV décrits plus loin.
Les sauts de ligne correspondent aux fins de ligne dans le fac-similé, aux césures de mots près (voir la rubrique Césure).
Pour faciliter le choix, pas toujours évident, entre un saut de ligne et un saut de paragraphe, il faut considérer qu'un saut de ligne doit être remplaçable par un espace sans nuire à la lecture du texte.
Un saut de ligne se trouve toujours à l'intérieur d'un bloc, pas au début (avant le texte proprement dit), ni à la fin (juste avant le saut de paragraphe).
Un saut de ligne est dit permanent s'il n'est pas spécifique au fac-similé (il a donc une valeur logique). On le signale en ajoutant le caractère "¤" (currency sign) devant.
Figure 1. Saut de ligne permanent
Un saut de ligne permanent doit être remplaçable, le cas échéant, par une (double) barre oblique selon la convention typographique usuelle.
Les sauts de page correspondent aux fins de page dans le fac-similé, aux césures de mots près (voir la rubrique Césure). La dernière page a donc aussi un saut de page.
Chaque saut de page est précédé d'un élément PAGE – l'ensemble est appelé séquence de page dans la suite du document. Une telle séquence doit être supprimable sans nuire à la lecture du texte.
Quand un bloc termine une page, la séquence de page est placée à la fin du bloc, juste avant les balises ◄/obj►, ◄/spe►, ◄/div► ou ◄/auteur► éventuelles situées devant le saut de paragraphe.
Figure 2. Bloc terminant une page
Quand un bloc s'étend sur deux pages, la séquence de page est placée à l'intérieur du bloc, juste après le dernier saut de ligne de la première page.
Figure 3. Bloc étendu sur deux pages
Une page blanche est représentée par un paragraphe ne contenant qu'une séquence de page.
Un élément PAGE est vide, son attribut ID indique le numéro de page logique (nombre entier positif) et son attribut FAC le numéro de page du fac-similé (chaîne de caractères, tout type de numérotation).
Qu'une page de fac-similé ait un numéro apparent (cas général) ou implicite (première page d'un chapitre, page blanche…), l'attribut FAC doit toujours être renseigné.
Les pages d'insert sont réintroduites dans le texte, elles ont donc une séquence de page, mais, étant hors pagination, leur attribut FAC prend la valeur "insert".
Figure 4. Page d'insert
Pour le placement des pages d'insert, il faut se référer à la numérotation des fichiers en mode image : par exemple, "1957_mon_53344_1_T1_0173_0001.jpg" est une page d'insert située après la page 173 du fac-similé Papers in Linguistics (J.R. Firth).
Les en-têtes et pieds de page présents dans le fac-similé (titre courant par exemple) ne sont pas repris.
Parmi les styles utilisés, seuls les styles présentés ci-après ont une valeur structurante. Ils définissent les titres, les pseudo-titres et les périphériques. Les autres styles ne servent qu'à améliorer la présentation du texte (ce sont les styles Appel de note, Balisage, Normal, Note de bas de page).
Un titre est un bloc unique affecté du style Titre (niveau 0), Titre 1 (niveau 1), … ou Titre 9 (niveau 9) par ordre hiérarchique décroissant.
Un titre peut contenir des sauts de ligne.
Le style Titre est réservé au titre général, même s'il n'apparaît pas dans le texte – dans ce cas, le niveau 0 est implicite.
Dans la titraison, un titre de niveau N (N > 1) doit dépendre d'un titre de niveau N-1. Si, dans un fac-similé, la titraison passe, par exemple, du niveau 1 au niveau 3, il faut rétablir le niveau 2.
Figure 5. Titre particulièrement long
Un titre peut avoir une amorce, voire se réduire à celle-ci (voir la rubrique Amorces).
Un titre doit être tapé en minuscules, seules les majuscules indispensables sont conservées (début du titre, noms propres, substantifs allemands…).
Un titre doit être corrigé au maximum : éviter l'élément CAR dans la mesure du possible, pas de restriction sur l'élément BIZ.
Les effets typographiques signifiants, et uniquement ceux-ci, doivent être balisés (voir la rubrique Effets typographiques).
Dans le cas d'un titre intégré à un paragraphe, il faut copier le titre dans un nouveau bloc, traiter celui-ci comme un titre et le baliser en tant qu'ajout. Le texte d'origine est traité comme du texte ordinaire.
Figure 6. Titre intégré
Un pseudo-titre est un bloc unique affecté du style Pseudo-titre (qui est de niveau "corps de texte").
Procéder comme pour un titre : sauts de ligne, amorce, normalisation des majuscules, balises CAR et BIZ, effets typographiques signifiants.
Procéder comme pour un titre intégré, le style à appliquer étant Pseudo-titre.
Un périphérique est un bloc affecté du style Périphérique (qui est de niveau "corps de texte"). Son contenu est traité comme du texte ordinaire.
Parmi les types de périphériques (nom d'auteur, exergue, dédicace, résumé…), les marginalia sont un cas particulier : il faut les replacer avant le bloc de texte auquel elles s'appliquent.
Les notes sont traitées comme des notes automatiques de bas de page, numérotées de 1 à N. Cela vaut aussi pour les notes non situées en bas de page. Chaque appel du fac-similé est inclus dans un élément APPEL dont l'attribut ID contient l'appel automatique Word.
Figure 7. Appel de note et note
Une note Word commence par un numéro automatique suivi d'un espace, suivi de la note proprement dite. Les balises ◄auteur►, ◄div►, ◄obj►, ◄spe► éventuelles se placent juste après la séquence numéro-espace.
La note reprend généralement l'appel du fac-similé, celui-ci est traité comme une amorce de type "note".
Chaque note doit être structurée comme le corps de texte : découpage physique, regroupement de blocs, images, tableaux… Pas de titre dans une note, mais les pseudo-titres et les périphériques sont autorisés. Pas d'appel de note dans une note – si le cas se présente, traiter l'appel comme une amorce et la note comme du texte ordinaire.
Un élément APPEL est toujours précédé d'un espace. Si un saut de ligne se trouve avant, il faut le replacer après.
Dans un élément APPEL, on corrige les erreurs d'océrisation (uniquement). Pas d'effet typographique ou autre.
Si un appel de note figure dans une image ou un tableau, l'élément APPEL doit être placé juste après l'élément IMAGE ou TABLEAU correspondant (et non pas à l'intérieur).
Une note figure implicitement en bas de la page contenant l'appel. Si ce n'est pas le cas, on utilise l'attribut LOC de l'élément APPEL pour indiquer le numéro de la page contenant la note : il s'agit précisément du numéro du fichier image dans le lot correspondant au volume traité. Par exemple :
◄appel id=2 loc=169►1◄/appel► indique que la note se trouve dans le fichier "xxxxx_0169_0000.jpg" appartenant au lot d'images du volume.
Différentes situations illustrent le cas précédent : note située page suivante, en fin de chapitre, en fin de texte, en fin de volume.
Si les notes du fac-similé appartiennent à un lot d'images différent de celui du texte (ex. D. Abercrombie, Elements of General Phonetics), alors il n'y a pas de solution. L'attribut LOC reste vide.
Tout appel de note manquant dans le fac-similé est ajouté à l'endroit jugé le plus opportun. L'élément APPEL correspondant doit être balisé en tant qu'ajout.
Quand plusieurs appels renvoient à la même note, le premier appel est traité selon la procédure générale ; pour les autres appels, la note correspondante est réduite à la mention : ◄+►Voir note X.◄/+► où X est un renvoi automatique vers la note du premier appel (champ NOTEREF).
Figure 8. Appels multiples
On trouve un exemple dans Grundzüge der Phonetik de Sievers. Les notes sont directement dans le corps de texte – il n'y a donc pas d'appels de note. On les traite comme des blocs ordinaires. Elles commencent par une amorce de type "note" : "Anm. 1", "Anm. 2", etc.
Les éléments IMAGE et TABLEAU servent à représenter les images (schémas, graphiques, photos…) et les tableaux (tables, tableaux, textes tabulés…) non réductibles à du texte ordinaire. Ils peuvent être vides ou contenir des mots-clés extraits du fac-similé.
Pas de saut de page dans les éléments IMAGE et TABLEAU.
Dans sa forme la plus simple, une image ou un tableau est représenté par un élément IMAGE ou TABLEAU inséré dans un bloc ordinaire au fil du texte, comme un caractère, ou dans un bloc vide – dans ce dernier cas, on parle de bloc image ou bloc tableau formant un paragraphe à part entière.
Figure 9. Objet simple
Pour les appels de note contenus dans une image ou un tableau, voir la rubrique Traitement des notes.
Une image ou un tableau peut être constitué d'un ou plusieurs blocs images ou blocs tableaux accompagnés de blocs de texte. Les blocs sont alors regroupés dans un élément OBJ. Le cas typique est celui d'une image accompagnée d'une légende ou de commentaires.
Figure 10. Objet complexe
Les images ou les tableaux étendus sur plusieurs pages doivent être découpés à raison d'un bloc image ou un bloc tableau par page, l'ensemble étant regroupé dans un élément OBJ.
Une liste de mots-clés est de la forme "mot1 | mot2 | etc.". La barre verticale "|" est réservée (on peut ajouter des espaces pour plus de lisibilité). Pas de doublons. L'ordre des mots-clés ne compte pas.
Les effets typographiques, l'élément BIZ, l'élément CAR, l'élément + sont autorisés. Pas les sauts de lignes.
Un élément OBJ doit contenir au moins un bloc image ou un bloc tableau, pas les deux.
Un élément OBJ ne doit pas contenir de titres (les pseudo-titres et les périphériques sont autorisés), ni de regroupements OBJ, SPE ou DIV.
L'élément SPECIAL sert à représenter du texte spécial, c'est-à-dire "pas tout à fait linéaire". À l'intérieur, le texte peut être réorganisé de manière lisible et on peut utiliser la barre verticale "|" pour séparer des bribes de texte.
Dans sa forme la plus simple, un texte spécial est représenté par un élément SPECIAL inséré dans un bloc ordinaire au fil du texte ou dans un bloc vide – dans ce dernier cas, on parle de bloc spécial formant un paragraphe à part entière.
Figure 11. Texte spécial dans un paragraphe ordinaire
Figure 12. Élément SPECIAL correspondant
Un appel de note contenu dans du texte spécial est traité selon la procédure normale (voir la rubrique Traitement des notes).
Dans un élément SPECIAL, les sauts de ligne, les sauts de pages, les effets typographiques, les éléments BIZ, CAR et + sont autorisés, mais pas les sauts de paragraphe.
Un texte spécial peut être constitué d'une suite de blocs contenant potentiellement des éléments de type SPECIAL. Dans ce cas, on regroupe les blocs dans un unique élément SPE sans utiliser le balisage SPECIAL (qui serait redondant).
Figure 13. Texte spécial complexe
Figure 14. Élément SPE correspondant
À l'intérieur d'un élément SPE, on procède comme pour un élément SPECIAL : réorganisation du texte et utilisation de la barre verticale ; traitement des appels de note ; sauts de ligne, sauts de pages, effets typographiques, éléments BIZ, CAR et + autorisés. Les sauts de paragraphe sont autorisés dans un élément SPE.
Un élément SPE ne doit pas contenir de titres (les pseudo-titres et les périphériques sont autorisés), ni de regroupements OBJ, SPE ou DIV.
Un paragraphe complexe est représenté par un élément DIV. Dans sa forme la plus courante, il correspond à une énumération (ou liste) précédée d'un paragraphe introductif.
Figure 15. Exemple de paragraphe complexe
Autre cas, moins courant : celui d'un objet complexe encapsulé dans un paragraphe. Cette situation implique généralement de découper artificiellement le paragraphe englobant en plusieurs blocs de texte.
Figure 16. Objet complexe encapsulé
Un élément DIV ne doit pas contenir de titres (les pseudo-titres et les périphériques sont autorisés), ni de regroupement DIV, mais il contenir des regroupements OBJ et SPE.
Les regroupements de blocs sont signalés par les éléments OBJ, SPE et DIV – ce sont des "super blocs".
Les éléments OBJ et SPE ne peuvent contenir que des blocs, alors que l'élément DIV peut contenir des blocs et des regroupements OBJ et SPE.
Une amorce est un élément de numérotation (chiffres arabes, chiffres romains, lettres…) que l'on trouve principalement au début d'un titre, d'une note, d'une légende, voire au début de certains paragraphes (numérotation dite "juridique"). Elle est représentée par l'élément A. Un tiret ou une puce seuls ne constituent pas une amorce (ce sont des signes de ponctuation).
On inclut dans une amorce toute ponctuation (point, parenthèse fermante…), tout saut de ligne, tout espace ne faisant pas partie du texte véritable.
Figure 17. Amorce de titre
Les amorces internes, c'est-à-dire placées ailleurs qu'en début de bloc, doivent être balisées elles aussi.
Les amorces composées, c'est-à-dire contenant plusieurs niveaux de numérotation, doivent être représentées par un unique élément A. C'est vrai pour les amorces non typées (voir ci-après).
Dans un élément A, les erreurs d'océrisation doivent être corrigées – une erreur fréquente est un "i" majuscule inséré à la place de "1". Les effets typographiques, l'élément BIZ et l'élément CAR sont inutiles.
Des amorces ordinaires, on distingue les amorces de légendes, les amorces juridiques et les amorces de notes. Pour cela, on utilise l'attribut TYPE avec les valeurs respectives (mises entre guillemets) : légende, juridique, note.
Si un passage du fac-similé est écrit par une personne autre que l'auteur principal du texte (par exemple, une note du traducteur, un avertissement de l'éditeur, un commentaire du préfacier…), il faut le baliser à l'aide d'un élément AUTEUR.
L'élément AUTEUR est un cas particulier : il peut baliser quelques mots dans un bloc ou baliser un ensemble de blocs. Dans ce dernier cas, il peut contenir des blocs et des regroupements DIV, OBJ et SPE.
Si une note doit être entièrement balisée avec AUTEUR, il faut veiller à ce que l'amorce de la note soit incluse dans le balisage (la balise A vient après AUTEUR).
Seuls les effets signifiants sont balisés. Exemples d'effets non signifiants : titre en gras ; préface en italique ; tout effet dans une amorce ou un appel de note ; majuscules des sigles, acronymes et chiffres romains (laisser le texte en majuscules) ; mise en exposant dans des expressions telles que "XXe siècle", "Mme", "1er"…
Les effets prévus sont les suivants : italique (élément I), gras (élément G), majuscules (élément M), petites majuscules (élément PM), exposant (élément EXP), indice (élément IND). Pour tout autre effet, on utilise l'élément générique EFFET. Ces éléments s'insèrent au fil du texte (ils ne peuvent pas contenir de saut de paragraphe).
Pour les effets majuscules et petites majuscules, le texte balisé doit être tapé dans sa forme canonique.
Le balisage doit respecter le découpage logique du texte – par exemple, si une liste de mots apparaît en italique, on balise chaque mot et non pas l'ensemble.
Les signes de ponctuation terminaux sont généralement à exclure du balisage (mot entre parenthèses ou entre guillemets, mot suivi d'une virgule…).
Le jeu de caractères utilisé est Unicode [1]. Les signes diacritiques combinables (combining diacritical marks, n° 768 à 879) sont autorisés.
Si un caractère du fac-similé n'existe pas dans l'Unicode ou n'a pas été identifié, il faut baliser le mot à l'aide d'un élément CAR (il n'est pas obligatoire de baliser le caractère précis).
Le contenu d'un élément CAR peut être retapé de manière approximative, mais lisible. Un élément CAR ne doit pas rester vide ; par défaut, on ajoute le caractère "#" (n° 35).
Un élément CAR ne doit pas contenir de saut de ligne, ni saut de page.
Les erreurs d'océrisation doivent être corrigées.
Les erreurs d'édition sont simplement balisées à l'aide d'éléments BIZ. On ne les corrige pas [2]. Noter qu'il faut tenir compte de l'ancienneté d'un texte : les graphies désuètes ne sont pas des erreurs d'édition.
L'élément BIZ peut servir à signaler d'autres anomalies telles qu'un effet typographique anormal ou une ponctuation erronée.
Dans les textes en langue étrangère, la ponctuation se conforme au fac-similé.
Dans les textes en français, la ponctuation est normalisée de la manière suivante : espace insécable devant les ponctuations doubles et le guillemet fermant ; espace insécable derrière le guillemet ouvrant ; pas d'espace devant la parenthèse et le crochet fermants, ni derrière la parenthèse et le crochet ouvrants ; espace ordinaire devant et derrière le tiret quand requis.
Dans tous les textes, le tiret est normalisé (n° 8212) ainsi que les points de suspension (n° 8230).
Dans tous les textes, les guillemets répétés à chaque alinéa (citation longue) doivent être supprimés ; seuls doivent subsister le guillemet de début et le guillemet de fin.
Attention à la fausse apostrophe (n° 8217) et à la fausse virgule (n° 8218).
Les mots coupés en fin de ligne ou en fin de page dans le fac-similé sont reconstitués. On étend ce principe aux liaisons. Exemples : le mot simple "auto-<saut>mobile" est reconstitué en "automobile<saut>" ; le mot composé "porte-<saut>manteau" en "porte-manteau<saut>" ; la liaison "dit-<saut>il" en "dit-il<saut>".
Si le mot reconstitué était normalement suivi d'une ponctuation ou d'un appel de note, le saut (de ligne ou de page) doit être déplacé après ceux-ci.
Les ajouts sont utilisés notamment pour les titres intégrés, les appels de note manquants et les appels de note multiples. Ils sont représentés par l'élément +.
Cet élément s'insère au fil du texte (il ne peut pas contenir de saut de paragraphe).
Accents et cédille sur les majuscules. Faut-il les ajouter systématiquement, même si le texte original ne le fait pas ?
Rétablir les ligatures "œ" et "æ". Mais, que devra taper l'utilisateur final qui recherche les contextes du mot "cœur" ?
Et les errata de l'éditeur ? On les réinjecte dans le texte ?
L'élément PAGE est le seul élément vide.
Seuls les éléments IMAGE et TABLEAU peuvent avoir un contenu vide.
Seuls les éléments DIV, OBJ, SPE, AUTEUR peuvent contenir des marques de paragraphe.
Les éléments DIV, OBJ, SPE doivent contenir au moins une marque de paragraphe.
Les éléments APPEL et A ne doivent contenir aucun balisage, les autres éléments ne doivent pas contenir un balisage de même type (ex. pas de G dans un G).
Les éléments CAR ne doivent contenir aucun saut de ligne, ni de page.
L'élément DIV ne peut être contenu dans aucun autre élément, sauf AUTEUR.
Les éléments OBJ et SPE ne peuvent être contenus dans aucun autre élément, sauf DIV et AUTEUR.
Une balise "◄div►" doit être en début de bloc, éventuellement précédée de "◄auteur►".
Une balise "◄/div►" doit être en fin de bloc, éventuellement suivie de "◄/auteur►".
Une balise "◄obj►" ou "◄spe►" doit être en début de bloc, éventuellement précédée de "◄div►", "◄auteur►" ou "◄auteur►◄div►".
Une balise "◄/obj►" ou "◄/spe►" doit être en fin de bloc, éventuellement suivie de "◄/div►", "◄/auteur►" ou "◄/div►◄/auteur►".
Un élément OBJ doit contenir au moins un élément IMAGE ou un élément TABLEAU, mais pas les deux.
Un élément SPE ne doit contenir aucun élément IMAGE, TABLEAU, SPECIAL.
Chaque note commence par le numéro automatique de la note suivi d'un espace.
Saut de paragraphe |
Découpage d'un texte en blocs. |
Saut de ligne |
Découpage d'un bloc en lignes. |
Saut de ligne avec caractère "¤" devant |
Saut de ligne permanent. |
Élément PAGE suivi d'un saut de page |
Découpage d'un texte en pages. Type inline. Syntaxe : ◄page id=N fac=texte /► où N ≥ 1, texte libre sauf mention "insert" réservée. |
Style "Titre" |
Titre général. |
Styles "Titre 1", …, "Titre 9" |
Titres de niveau 1 à 9. |
Style "Pseudo-titre" |
Pseudo-titre. |
Style "Périphérique" |
Périphérique. |
Élément APPEL avec note automatique |
Appel de note de bas de page (et note associée). Type inline. Syntaxe : ◄appel id=N [loc=P]►…◄/appel► où N ≥ 1, P ≥ 1. |
Champ NOTEREF |
Note associée à un appel multiple. Syntaxe : ◄+►Voir note X.◄/+► où X est un champ NOTEREF. |
Élément IMAGE |
Image. Type inline. Syntaxe : ◄image►[mots-clés]◄/image►. |
Élément TABLEAU |
Tableau. Type inline. Syntaxe : ◄tableau►[mots-clés]◄/tableau►. |
Élément OBJ |
Objet complexe. Type block. Syntaxe : ◄obj►…◄/obj►. |
Caractère "|" |
Utilisé dans les listes de mots-clés. Syntaxe : mot1 | mot2 | … Utilisé librement dans du texte spécial. |
Élément SPECIAL |
Texte spécial. Type inline. Syntaxe : ◄special►…◄/special►. |
Élément SPE |
Texte spécial. Type block. Syntaxe : ◄spe►…◄/spe►. |
Élément DIV |
Paragraphe complexe. Type block. Syntaxe : ◄div►…◄/div►. |
Élément A |
Amorce. Type inline. Syntaxe : ◄a [type=valeur]►…◄/a► où valeur est "légende", "juridique" ou "note". |
Élément AUTEUR |
Intervention d'un auteur secondaire. Types inline et block. Syntaxe : ◄auteur►…◄/auteur►. |
Éléments I, G, M, PM, EXP, IND, EFFET |
Effets typographiques : italique, gras, majuscule, petites majuscules, exposant, indice, autre effet. Type inline. Syntaxe : ◄i►…◄/i►, etc. |
Élément BIZ |
Coquille et autre bizarrerie. Type inline. Syntaxe : ◄biz►…◄/biz►. |
Élément CAR |
Caractère indéfini. Type inline. Syntaxe : ◄car►…◄/car►. A minima contient le caractère n° 129. |
Élément + |
Ajout effectué par le CTLF.Type inline. Syntaxe : ◄+►…◄/+►. |
N.B. Le type inline correspond aux éléments insérables au fil du texte, le type block aux éléments induisant un passage à la ligne.
- FIN -
[1] Les caractères Unicode gérés par Word vont du n° 0 au n° 65535.
[2] Pourquoi ce choix ? Si certaines coquilles sont manifestes, d'autres peuvent se discuter : s'agit-il d'une ancienne graphie ? d'un néologisme de l'auteur ? d'une erreur de traduction ?