Configuration du serveur TE

Initialisation

Les paramètres du serveur TE sont définis dans le fichier $TE_HOME/etc/te.conf.
Lors de la première utilisation, le fichier d'exemple te.conf.sample doit être copié dans le fichier te.conf :

# cp $TE_HOME/etc/te.conf.sample $TE_HOME/etc/te.conf

Paramètres

Le fichier de configuration est composé des paramètres suivants :

Base de données

# Transformation Engine CREATE TEXT SEARCH CONFIGURATION
# ---------------------------
TE_PG_SERVICE="te"          # PostgreSQL database service name
  • TE_PG_SERVICE : permet d'indiquer le service d'accès à la base de données TE.

Serveur de transformation

TE_SERVER_DEBUG=no

PORT=51968  # port number to listen to client
LISTEN_ADDRESS=0.0.0.0  # address mask to listen : listen everybody by default
REQUEST_MAX_CLIENT=15   # max request in parallel
TE_WORK_DIR=/var/tmp    # Directory where task's files and engine's temporary files are stored
  • TE_SERVER_DEBUG : permet de rediriger (yes ou no) la sortie standard (STDOUT) et d'erreur (STDERR) des services te-request-server, te-rendering-server, te-ooo-server et te-tika-server dans syslog (pour analyser les éventuels problèmes de démarrage de ces services),
  • PORT : port d'écoute du serveur,
  • LISTEN_ADDRESS : adresse IP d'écoute du serveur,
  • REQUEST_MAX_CLIENT : nombre maximum de connexions clientes simultanées,
  • TE_WORK_DIR : répertoire de stockage des fichiers reçus.
RENDERING_MAX_CLIENT=10 # max conversion in parallel
  • RENDERING_MAX_CLIENT: Nombre de moteurs de transformation activés en parallèle.

Mécanisme de purge

PURGE_DAYS=7    # remove tasks older than 7 days
PURGE_INTERVAL=100  # trigger purge tasks every 100 requests (set to 0 to disable purge)

Ces paramètres permettent de définir le fonctionnement de la purge (suppression des transformations dont la date de création est antérieure à la limite donnée).
Si la tâche est en cours d'exécution, le processus de la tâche est tué.
Ensuite, quelque soit le status de la transformation, la transformation est supprimée avec son répertoire de travail.

  • PURGE_DAYS : Les travaux antérieurs à ce nombre de jours sont purgés,
  • PURGE_INTERVAL : précise la fréquence de la purge; la purge est lancée toutes les n transformations exécutées.

Identité pour les serveurs

TE_SERVER_USER=te
  • TE_SERVER_USER : permet de spécifier l'utilisateur système sous lequel les serveurs sont exécutés.

Serveur OpenOffice.org/LibreOffice.org

Sites officiels des logiciels OpenOffice.org/LibreOffice.org

TE_OOO_SERVER_ENABLED=yes
TE_OOO_BASE_DIR=/replace/me/with/path/to/openoffice.org/directory
TE_OOO_SERVER_TIMEOUT=3600
TE_OOO_CLIENT_TIMEOUT=3600
TE_OOO_SERVER_SOFFICE=${TE_OOO_BASE_DIR}/program/soffice
TE_OOO_JVM_OPTS=""

Les chemins d'accès aux fichiers OpenOffice.org sont relatifs.
Le paramètre principal TE_OOO_DIR est utilisé pour définir les paramètres secondaires :

  • TE_OOO_SERVER_ENABLED : permet d'activer (yes) ou désactiver (no) le lancement du serveur OpenOffice.

    Attention

    Cela ne désactive pas l'exécution des moteurs de conversion qui utilisent OpenOffice. Ces derniers seront alors mis en erreur.

  • TE_OOO_BASE_DIR : Chemin d'accès au répertoire racine d'installation de OpenOffice ou LibreOffice(e.g. /opt/libreoffces5.3). Ce paramètre est facultatif. Il sert, dans la configuration par défaut, à repérer le programme soffice qui est défini par variable TE_OOO_SERVER_SOFFICE.

  • TE_OOO_SERVER_TIMEOUT : Durée maximale d'exécution de l'environnement dédié OpenOffice/LibreOffice. Passé ce temps, l'environnement est inconditionnellement détruit (même si des clients sont encore connectés).

  • TE_OOO_CLIENT_TIMEOUT : Durée maximale d'exécution pour une transformation initiée via ooo-server-cli.

  • TE_OOO_SERVER_SOFFICE: chemin d'accès au programme soffice de OpenOffice/LibreOffice.

  • TE_OOO_JVM_OPTS : variable pour positionner des paramètres spécifiques pour la JVM si besoin.

Server Tika

Ces variables dépendent de l'installation de Tika server.

TE_TIKA_SERVER_ENABLED=yes
TE_TIKA_SERVER_JAR="/replace/me/with/path/to/tika-server-standard-#version#.jar"
TE_TIKA_SERVER_HOST=127.0.0.1
TE_TIKA_SERVER_PORT=9998
TE_TIKA_SERVER_LOGLEVEL="" # 'debug' or 'info'
  • TE_TIKA_SERVER_ENABLED : Permet d'activer (yes) ou désactiver (`no) le lancement du serveur Tika.

    Attention

    Cela ne désactive pas l'exécution des moteurs de conversion qui utilise Tika : ces derniers seront alors mis en erreurs.

  • TE_TIKA_SERVER_JAR : Chemin d'accès au fichier JAR de Tika Server,

  • TE_TIKA_SERVER_HOST : Adresse IP d'écoute du serveur Tika,

  • TE_TIKA_SERVER_PORT : Port TCP d'écoute du server Tika,

  • TE_TIKA_SERVER_LOGLEVEL : Niveau de log spécifique du serveur Tika (à utiliser conjointement avec TE_SERVER_DEBUG décrit ci-dessus).

Types MIMES

La détection du type MIME textuel et du type MIME système des fichiers par le TE est paramétrable via des règles appliquées sur l'extension du nom du fichier.
Ces règles sont décrites au format XML dans le fichier $TE_HOME/etc/user-mime.conf.
Un fichier d'exemple est fourni par défaut dans $TE_HOME/etc/user-mime.conf.sample.

Exemple : définition des types MIME textuel et système pour les fichiers d'extension .foo et .bar

<?xml version="1.0" encoding="utf-8"?>
<mimes>
    <mime ext="foo" sys="application/foo" text="Foo file"/>
    <mime ext="bar" sys="application/bar" text="Bar file"/>
</mimes>

Chaque règle est décrite à l'aide d'un élément <mime/> comportant l'extension (sans le point de l'extension) sur laquelle elle s'applique (attribut ext) et le type MIME textuel et système correspondant qui est retourné (attribut ext et sys).
Les règles sont évaluées dans l'ordre. Le TE s'arrête à la première règle qui correspond à l'extension du fichier.
Les règles sont évaluées prioritairement par rapport au jeu de règles fournies par défaut par TE (consultable dans le fichier$TE_HOME/etc/mime.conf).