Warning: parse_ini_file() [function.parse-ini-file]: Cannot open 'fr.ini' for reading in /home/digimind/www/wp-content/themes/digimind_by_hd/header.php on line 6
Digimind Encoding Identifier/Converter

Digimind Encoding Identifier/Converter

Objectif

L’internationalisation d’Internet a entraîné la multiplication des types d’encoding. Cela a permis d’ajouter de nouvelles langues utilisant des caractères non latin : Mandarin, Arabe, Indien, etc. Cette diversité complique grandement la tâche pour les solutions de traitement du texte, qui ont souvent du mal à traiter les caractères spéciaux, en particulier les accents et la ponctuation. Digimind Encoding Identifier/converter a été conçu pour régler ce problème et pour prendre en compte la diversité linguistique d’Internet dans le cadre d’un dispositif de veille stratégique.

Fonctionnement

La première tâche de Digimind Encoding Identifier/Converter est d’identifier l’encoding d’un document. En effet, si certains documents précisent leur encoding dans leur méta-données, cela reste une exception. Il n’est d’ailleurs pas rare que l’encoding indiqué soit erroné. Une difficulté supplémentaire est la multiplicité des encoding au sein d’un même document. Cela est particulièrement vrai dans le cas des fils RSS issus de blog, qui aggrègent des contenus provenant de différents sites, avec différents encoding.

Digimind Encoding Identifier/Converter est capable d’identifier tous les encoding automatiquement, au niveau de chaque phrase. Il utilise ensuite son dictionnaire de traduction, capable de transformer tous les types d’encoding en Unicode. En bout de chaîne, on obtient finalement des documents avec un encoding homogène et standard.