Numérisation d’un document papier au format PDF

Vous pouvez créer directement un fichier PDF à partir d’un document papier numérisé à l’aide d’un scanner et d’Acrobat. Sous Windows, Acrobat prend en charge les pilotes de scanner TWAIN et les pilotes WIA (Windows Image Acquisition). Sous Mac OS, Acrobat prend en charge TWAIN et Image Capture (ICA).

Sous Windows, vous pouvez utiliser la détection automatique du mode colorimétrique et laisser Acrobat déterminer le type de contenu du document papier, ou utiliser d’autres paramètres prédéfinis (Document en noir et blanc, Document en niveaux de gris, Document en couleurs et Image en couleurs) en fonction de votre jugement. Vous pouvez configurer les paramètres prédéfinis de numérisation ou utiliser l’option Numérisation personnalisée pour effectuer une numérisation avec les paramètres de votre choix.

Remarque :

La numérisation prédéfinie est uniquement disponible pour les pilotes de scanner prenant en charge le mode Masquer l’interface native du scanner. Les paramètres prédéfinis de numérisation ne sont pas disponibles sous Mac OS.

Sous Windows, si un pilote WIA est installé pour votre scanner, vous pouvez également utiliser le bouton Numériser de votre appareil afin de créer un document PDF. Appuyez sur le bouton Numériser, puis sous Windows, choisissez Adobe Acrobat dans la liste des applications enregistrées. Ensuite, dans la boîte de dialogue Acrobat Scan, sélectionnez un scanner et un paramètre prédéfini de document ou l’option Numérisation personnalisée.

Numérisation d’un document papier au format PDF à l’aide de la détection automatique du mode colorimétrique (Windows)

  1. Choisissez Fichier > Créer > Fichier PDF à partir d’un scanner > Détecter automatiquement le mode couleur.

  2. Si vous êtes invité à numériser d’autres pages, choisissez Numériser davantage de pages, Numériser le verso ou Numérisation terminée, puis cliquez sur OK.

Numérisation d’un document papier au format PDF à l’aide d’un paramètre prédéfini (Windows)

  1. Choisissez Fichier > Créer > Fichier PDF à partir d’un scanner > [paramètre prédéfini de document].

  2. Si vous êtes invité à numériser d’autres pages, choisissez Numériser davantage de pages, Numériser le verso ou Numérisation terminée, puis cliquez sur OK.

Numérisation d’un document papier au format PDF sans recourir à des paramètres prédéfinis

  1. Dans Acrobat, procédez de l’une des manières suivantes :
    • (Windows) Choisissez Fichier > Créer > Fichier PDF à partir d’un scanner > Numérisation personnalisée.
    • (Mac OS) Choisissez Fichier > Créer > Fichier PDF à partir d’un scanner.
  2. Sélectionnez les options de numérisation pertinentes dans la boîte de dialogue Numérisation personnalisée, puis cliquez sur Numériser.

    Remarque :

    si vous spécifiez préférer utiliser l’interface utilisateur native du scanner plutôt que celle d’Acrobat, d’autres fenêtres ou boîtes de dialogue s’affichent. Pour plus de détails sur les options disponibles, consultez la documentation du scanner. Sous Mac OS, l’interface utilisateur du scanner est toujours visible.

  3. Si vous êtes invité à numériser d’autres pages, choisissez Numériser davantage de pages, Numériser le verso ou Numérisation terminée, puis cliquez sur OK.

Optimisation d’un document PDF numérisé

  1. Ouvrez un fichier PDF créé à partir d’un document numérisé.
  2. Choisissez Outils > Traitement du document > Optimiser le fichier PDF numérisé.

  3. Sélectionnez les options voulues dans la boîte de dialogue Optimiser le fichier PDF numérisé, puis cliquez sur OK.

Configuration de paramètres prédéfinis de numérisation (Windows)

  1. Choisissez Fichier > Créer > Fichier PDF à partir d’un scanner > Configurer des paramètres prédéfinis.

  2. Dans la boîte de dialogue Configurer des paramètres prédéfinis, sélectionnez un jeu de paramètres prédéfinis : Détecter automatiquement le mode couleur, Document en noir et blanc, Document en niveaux de gris, Document en couleurs ou Image en couleurs.

  3. Configurez les paramètres selon vos besoins.
  4. Cliquez sur Enregistrer pour enregistrer le paramètre prédéfini, puis sur Fermer.

Options de numérisation

Scanner

Sélectionnez un scanner installé. Le logiciel de numérisation du fabricant doit être installé sur l’ordinateur. Sous Windows uniquement, cliquez sur le bouton Options afin de spécifier les options du scanner.

Paramètres prédéfinis

Sélectionnez un paramètre prédéfini à modifier.

Faces

Spécifiez s’il s’agit d’une numérisation recto seul ou recto verso. Si vous sélectionnez l’option Recto verso alors que le scanner est configuré pour la numérisation recto seul, les paramètres du scanner prennent le pas sur ceux d’Acrobat.

Remarque :

vous pouvez numériser le recto et le verso, même sur les scanners qui ne prennent pas en charge la numérisation recto verso. Si vous sélectionnez l’option Recto verso, une boîte de dialogue s’affiche après numérisation des rectos. Vous pouvez ensuite inverser les documents originaux dans le bac, sélectionnez Numériser le verso (recto de la feuille) dans la boîte de dialogue. Cette méthode génère un fichier PDF respectant l’ordre des pages.

Mode colorimétrique (Windows uniquement)

Sélectionnez un mode colorimétrique de base (Détection automatique, Couleur, Noir et blanc ou Niveaux de gris) pris en charge par le scanner. Cette option est activée si, dans les options de scanner, vous avez défini l’utilisation de la boîte de dialogue de numérisation d’Acrobat à la place de celle du scanner.

Résolution (Windows uniquement)

Sélectionnez une résolution prise en charge par le scanner. Cette option est activée si, dans les options de scanner, vous avez défini l’utilisation de la boîte de dialogue de numérisation d’Acrobat à la place de celle du scanner.

Remarque :

Si vous sélectionnez un mode colorimétrique ou une résolution non pris en charge par le scanner, un message s’affiche et la fenêtre de l’application du scanner s’ouvre. Sélectionnez les options appropriées dans la fenêtre de l’application du scanner.

Format de papier (Windows uniquement)

Sélectionnez un format de papier ou définissez une largeur et une hauteur personnalisées.

Inviter à numériser d’autres pages

Lorsque cette case est cochée, une boîte de dialogue vous invitant à numériser d’autres pages s’affiche après la numérisation de chaque page.

Créer un document PDF

Crée un fichier PDF. Cette option n’est pas disponible dans la boîte de dialogue Configurer des paramètres prédéfinis.

Fichiers multiples

Crée plusieurs fichiers à partir de multiples documents papier. Cliquez sur Autres options, puis indiquez si un porte-documents des fichiers doit être créé, précisez le nombre de pages de chaque fichier et tapez le préfixe de nom de fichier à utiliser. Ces options ne sont pas disponibles dans la boîte de dialogue Configurer des paramètres prédéfinis.

Ajouter à un fichier ou à un porte-documents existant

Ajoute les pages numérisées à un fichier ou porte-documents PDF existant. Cette option n’est pas disponible dans la boîte de dialogue Configurer des paramètres prédéfinis.

Optimiser le fichier PDF numérisé

Sélectionnez cette option pour exécuter le processus d’optimisation dans le document PDF. Cette option sert à compresser et à filtrer les images dans le fichier PDF numérisé.

Petite taille/Qualité supérieure

Utilisez le curseur afin d’équilibrer la taille de fichier et la qualité d’image. Cliquez sur Options pour personnaliser l’optimisation à l’aide de paramètres spécifiques de compression de fichier et de filtrage.

Indexation (ROC)

Activez cette option afin de convertir les images texte présentes dans le fichier PDF en texte indexable et sélectionnable. Cette option applique au texte des images la reconnaissance optique des caractères (ROC), la reconnaissance des polices et celle des pages. Cliquez sur Options pour configurer des paramètres spécifiques dans la boîte de dialogue Reconnaissance du texte - Paramètres. Voir Reconnaissance du texte d’un document numérisé.

Rendre compatible avec la norme PDF/A

Sélectionnez cette option pour rendre le document PDF conforme aux normes ISO relatives à PDF/A-1b. Lorsque cette option est sélectionnée, seule la valeur Image indexable du paramètre Style de sortie PDF est disponible dans la boîte de dialogue Reconnaissance du texte - Paramètres.

Ajouter des métadonnées

Si cette option est sélectionnée, la boîte de dialogue des propriétés du document s’ouvre après la numérisation. Dans cette boîte de dialogue, vous pouvez ajouter au fichier PDF des métadonnées ou des informations relatives au document numérisé. Si vous créez plusieurs fichiers, vous avez la possibilité de définir des métadonnées communes à tous les fichiers.

Boîte de dialogue Options de scanner

Méthode de transfert des données

Le Mode natif effectue le transfert selon le mode par défaut du scanner. Le Mode de mémoire est automatiquement sélectionné pour la numérisation à des résolutions supérieures à 600 ppp (points par pouce).

Interface utilisateur

L’option Masquer l’interface native du scanner permet de contourner les fenêtres et boîtes de dialogue fournies par le fabricant du scanner. Au lieu de cela, la numérisation démarre directement avec les options définies dans les paramètres de la numérisation personnalisée.

Inverser les images en noir et blanc

Cette option crée des images positives à partir de négatifs en noir et blanc, par exemple.

Boîte de dialogue Optimiser le fichier PDF numérisé

La boîte de dialogue Optimiser le fichier PDF numérisé permet de gérer le filtrage et la compression des images numérisées pour créer le fichier PDF. Les paramètres par défaut conviennent à un large éventail de documents, mais vous pouvez les personnaliser afin d’accroître la qualité des images, de réduire la taille des fichiers ou de remédier à des problèmes de numérisation.

Compression adaptative

Divise la page en zones noir et blanc, niveaux de gris et couleur, puis choisit la méthode qui permet de compresser au maximum le contenu de chaque zone tout en préservant l’aspect de la page. Les résolutions de numérisation recommandées sont les suivantes : 300 ppp (points par pouce) en niveaux de gris et en couleurs RVB, et 600 ppp en noir et blanc.

Couleur/Niveaux de gris

Lors de la numérisation de pages en couleurs ou en niveaux de gris, sélectionnez l’une des options suivantes :

JPEG2000

Applique la compression JPEG2000 au contenu de l’image colorée. (Ce paramètre est déconseillé en case de création de fichiers PDF/A. Utilisez plutôt le format JPEG.)

ZIP

Applique la compression ZIP au contenu de l’image colorée.

JPEG

Applique la compression JPEG au contenu de l’image colorée.

Remarque :

Le scanner utilise soit l’option Couleur/Niveaux de gris sélectionnée, soit l’option Monochrome. L’option utilisée dépend des paramètres sélectionnés dans la boîte de dialogue de numérisation d’Acrobat ou dans l’interface TWAIN du scanner, qui peut s’ouvrir lorsque vous cliquez sur Numériser dans la boîte de dialogue d’Acrobat. (Par défaut, la boîte de dialogue de l’application du scanner ne s’ouvre pas.)

Monochrome

Lors de la numérisation d’images en noir et blanc ou monochrome, sélectionnez l’une des options suivantes :

JBIG2 (sans perte de données) et JBIG2 (avec perte de données)

Applique la méthode de compression JBIG2 aux pages en noir et blanc. Les niveaux de qualité les plus élevés correspondent à la méthode sans perte ; en deçà, la compression du texte est élevée. La taille des pages de texte est en général inférieure de 60 % à celle des pages compressées en CCITT - Groupe 4, mais le traitement est plus long. Compatible avec Acrobat 5.0 (PDF 1.4) ou version ultérieure.

Remarque :

Pour assurer la compatibilité avec Acrobat 4.0, utilisez une méthode de compression autre que JBIG2.

CCITT - Groupe 4

Applique la compression CCITT - Groupe 4 aux pages en noir et blanc. Cette méthode de compression rapide et avec un minimum de pertes est compatible avec Acrobat 3.0 (PDF 1.2) et version ultérieure.

Petite taille/Qualité supérieure

Définit le point d’équilibre entre la qualité et la taille des fichiers.

Redressement

Fait pivoter toute page qui ne suit pas parfaitement les côtés du scanner afin d’aligner la page PDF verticalement. Choisissez Activé ou Désactivé.

Suppression de l’arrière-plan

Blanchit les zones presque blanches des numérisations en couleurs ou niveaux de gris (mais pas en noir et blanc).

Remarque :

Pour des résultats optimaux, étalonnez votre scanner à l’aide des paramètres de contraste et de luminosité afin que la numérisation d’une page en noir et blanc normale produise une page avec du texte gris ou noir et un arrière-plan blanc. Les options Désactivé(e) ou Faible doivent alors donner les meilleurs résultats. En cas de numérisation de papier blanc cassé ou de papier journal, utilisez l’option Moyen(ne) ou Élevé(e) pour nettoyer la page.

Détramage

Supprime la trame formée par les points en demi-teinte, qui peut réduire la compression JPEG, créer des effets moirés ou rendre la reconnaissance de texte plus difficile. Convient aux numérisations RVB ou niveaux de gris de 200 à 400 points par pouce ou, avec la compression adaptative, aux numérisations en noir et blanc de 400 à 600 ppp. Le paramètre Activé (recommandé) applique le filtre aux numérisations RVB et niveaux de gris de 300 ppp ou plus. Choisissez l’option Désactivé(e) lorsque vous numérisez une page sans image ni zones remplies ou si la résolution de numérisation est en dehors de la plage d’efficacité du filtre.

Amélioration de la netteté du texte

Améliore la netteté du texte du fichier PDF numérisée. La valeur est par défaut définie sur un niveau faible ; elle convient à la plupart des documents. Augmentez-la si la qualité de l’impression du document est faible et si le texte est flou.

Conseils relatifs à la numérisation

  • Acrobat peut numériser des images dont la résolution est comprise entre 10 et 3 000 points par pouce. Si vous sélectionnez Image indexable ou ClearScan pour Style de sortie PDF, la résolution d’entrée doit être supérieure ou égale à 72 points par pouce. Par ailleurs, une résolution d’entrée supérieure à 600 ppp est sous-échantillonnée à 600 ppp ou moins.

  • Pour appliquer la compression sans perte à une image numérisée, sélectionnez l’une de ces options dans la section Options d’optimisation de la boîte de dialogue Optimiser le fichier PDF numérisé : CCITT - Groupe 4 pour les images monochromes ou Sans perte pour les images en couleur ou niveaux de gris. Si cette image est jointe à un document PDF et que vous enregistrez le fichier à l’aide de l’option Enregistrer, l’image numérisée reste non compressée. Si vous enregistrez le document PDF à l’aide de l’option Enregistrer sous, l’image numérisée peut être compressée.

  • Dans la plupart des cas, la numérisation de pages en noir et blanc à 300 ppp produit le résultat le plus adapté à une conversion. A 150 ppp, la précision de la reconnaissance optique des caractères (ROC) est légèrement inférieure et un plus grand nombre d’erreurs peut survenir dans la reconnaissance des polices. A 400 ppp et au-delà, le traitement est ralenti et la compression des pages moindre. Lorsque le document contient des termes non reconnus ou des caractères de petite taille (9 points ou moins), essayez de numériser à une résolution supérieure. Numérisez autant que possible vos documents en noir et blanc.

  • Lorsque l’option Reconnaître du texte par ROC est désactivée, un éventail complet de résolutions (comprises entre 10 et 3 000 points par pouce) est disponible, mais la résolution recommandée demeure 72 ppp (ou plus). Dans le cas d’une compression adaptative, il est recommandé de choisir une résolution de 300 ppp pour les pages en niveaux de gris et RVB et de 600 ppp pour les pages en noir et blanc.

  • La numérisation de pages en couleurs 24 bits, à 300 ppp et au format 21,59 x 27,94 cm entraîne la création d’images volumineuses (25 Mo) avant la compression. Il est possible que votre système nécessite 50 Mo de mémoire virtuelle (ou plus) pour effectuer la numérisation. Avec une résolution de 600 ppp, la numérisation et le traitement sont en général quatre fois plus lents qu’avec une résolution de 300 ppp.

  • Évitez d’utiliser les options de simulation et de demi-teintes du scanner. Ces paramètres peuvent améliorer l’aspect des photographies, mais empêchent la bonne reconnaissance du texte.

  • Si vous souhaitez numériser un texte imprimé sur du papier couleur, augmentez la luminosité et le contraste d’environ 10 %. Si le scanner reconnaît le filtrage des couleurs, pensez à utiliser un filtre ou un éclairage qui élimine la couleur d’arrière-plan. Si le texte n’est pas suffisamment net, essayez de régler le contraste et la luminosité du scanner afin d’obtenir une numérisation plus précise.

  • Si votre scanner permet de régler manuelle la luminosité, réglez-le de manière que les caractères soient plus nets et mieux formés. Si les caractères sont accolés, augmentez la valeur de luminosité ; s’ils sont trop éloignés, réduisez-la.

Reconnaissance du texte d’un document numérisé

Vous pouvez utiliser Acrobat pour reconnaître le texte d’un document numérisé au préalable et converti au format PDF. Le logiciel de reconnaissance optique des caractères (ROC) vous permet d’indexer, de corriger et de copier le texte d’un document PDF numérisé. Pour que la reconnaissance optique des caractères soit applicable au fichier PDF, la résolution d’origine doit être de 72 ppp ou plus.

Remarque :

une numérisation effectuée à 300 ppp génère le texte le plus adapté à la conversion. Avec une résolution de 150 ppp, la précision de la ROC est légèrement inférieure.

Reconnaissance du texte d’un document unique

  1. Ouvrez le fichier PDF numérisé.
  2. Choisissez Outils > Reconnaissance du texte > Dans ce fichier.

  3. Dans la boîte de dialogue Reconnaissance du texte, sélectionnez une option dans la zone Pages.

  4. Cliquez éventuellement sur Modifier pour ouvrir la boîte de dialogue Reconnaissance du texte - Paramètres généraux, puis spécifiez les options selon vos besoins.

Reconnaissance du texte de plusieurs documents

  1. Dans Acrobat, choisissez Outils > Reconnaissance du texte > Dans plusieurs fichiers.

  2. Dans la boîte de dialogue Reconnaissance du texte, cliquez sur Ajouter des fichiers, puis choisissez Ajouter des fichiers, Ajouter des dossiers ou Ajouter les fichiers ouverts. Sélectionnez ensuite les fichiers ou le dossier.
  3. Dans la boîte de dialogue Options de sortie, spécifiez un dossier cible pour les fichiers de sortie et les préférences de nom de fichier.
  4. Dans la boîte de dialogue Reconnaissance du texte - Paramètres généraux, spécifiez les options voulues, puis cliquez sur OK.

Boîte de dialogue Reconnaissance du texte - Paramètres généraux

Langue de ROC principale

Détermine la langue que le moteur de ROC doit utiliser pour identifier les caractères.

Style de sortie PDF

Détermine le type de fichier PDF à générer. Toutes les options nécessitent une résolution d’entrée de 72 ppp ou plus (recommandé). Tous les formats appliquent aux images de texte la reconnaissance optique des caractères (ROC), la reconnaissance des polices et celle des pages, puis les convertissent en texte normal.

Image indexable

Permet de s’assurer que le texte est disponible pour la recherche et sélectionnable. Cette option conserve l’image d’origine, applique un redressement selon les besoins et insère un calque de texte invisible. L’option choisie pour le paramètre Sous-échantillonner les images dans cette même boîte de dialogue indique si l’image est sous-échantillonnée et le niveau de sous-échantillonnage.

Image indexable (exacte)

Permet de s’assurer que le texte est disponible pour la recherche et sélectionnable. Cette option conserve l’image d’origine et insère un calque de texte invisible (recommandée lorsque l’image doit être la plus fidèle possible à l’image d’origine).

ClearScan

Synthétise une nouvelle police Type 3 qui simule approximativement l’originale et conserve l’arrière-plan des pages dans une copie basse résolution.

Sous-échantillonner à

Réduit le nombre de pixels des images en couleurs, en niveaux de gris et monochromes suite à la reconnaissance optique des caractères. Choisissez le degré de sous-échantillonnage à appliquer. Les options les plus élevées produisent un sous-échantillonnage moindre, et donc des fichiers PDF de résolution supérieure.

Correction du texte ROC dans un fichier PDF

Lorsque vous appliquez la ROC à une sortie numérisée, Acrobat analyse les images bitmap de texte et les remplace par des mots et des caractères. Si la substitution n’est pas certaine, Acrobat identifie le mot comme suspect. Les suspects s’affichent dans le fichier PDF à l’aide du bitmap d’origine et le texte est placé sur un calque invisible situé derrière la représentation bitmap du terme. Cette méthode permet de rechercher le terme, même lorsqu’il est affiché sous la forme d’une image bitmap.

Remarque : si vous essayez de sélectionner du texte dans un document PDF numérisé sans ROC ou d’effectuer une lecture audio sur un fichier image, Acrobat vous propose d’exécuter ROC. Si vous acceptez, la boîte de dialogue Reconnaissance de texte s’ouvre et vous permet de sélectionner les options décrites en détail à la rubrique précédente.

  1. Effectuez l’une des opérations suivantes :

    • Choisissez Outils > Reconnaissance de texte > Rechercher tous les suspects. Tous les mots suspects sur la page sont inclus dans des zones de texte. Cliquez sur n’importe quel mot douteux pour afficher le texte suspect dans la boîte de dialogue de recherche d’élément.
    • Choisissez Outils > Reconnaissance de texte > Rechercher le premier suspect.

    Remarque : si vous fermez la fenêtre Rechercher un élément avant de corriger tous les termes suspects, vous pouvez relancer la procédure de correction en choisissant Outils > Reconnaissance du texte > Rechercher le premier suspect ou en cliquant sur l’un des termes suspects à l’aide de l’outil Modifier le texte du document.

  2. Dans la liste déroulante Rechercher, choisissez Suspects repérés par OCR.

  3. Comparez le terme affiché dans la zone de texte Suspect au terme contenu dans le document numérisé. Pour corriger un suspect repéré par ROC, cliquez sur l’objet mis en surbrillance dans le document et saisissez le nouveau texte. Si le terme suspect a été injustement reconnu comme du texte, cliquez sur le bouton Il ne s’agit pas de texte.

  4. Revoyez et corrigez les termes suspects restants et fermez la fenêtre Rechercher un élément lorsque vous avez terminé.

Ce produit est distribué sous licence Creative Commons Attribution - Pas d’utilisation commerciale - Partage à l’identique 3.0 non transposé  Les publications Twitter™ et Facebook ne sont pas couvertes par les dispositions Creative Commons.

Mentions légales   |   Politique de confidentialité en ligne