> Date: Mon, 6 Feb 2017 10:58:07 +0300
> From: Hèctor Alòs i Font <[email protected]>
> To: "[apertium-stuff]" <[email protected]>
> Reply-To: [email protected]
> Subject: [Apertium-stuff] apertium-fra
> Pièce(s) jointes(s) probable(s)>
> On est en train de commencer à travailler sur une novelle version de la
> paire français-catalan à partir des répertoires séparés apertium-fra,
> apertium-cat et apertium-fra-cat. Il y a des choses qui ne sont pas en
> train de marcher parce qu'il y a des définitions contradictoires dans les
> dictionnaires, par exemple dans les pronoms personnels. Dans
> apertium-fra/apertium-fra.fra.metadix on a :
>     <e lm="je" r="LR"><p><l>je</l><r>prpers</r></p><par n="je__prn"/></e>
>     <e lm="je" r="RL"><p><l><a/>je</l><r>prpers</r></p><par
> n="je__prn"/></e>
> Mais dans apertium-fra-cat/apertium-fra-cat.fra-cat.dix on a :
>     <e>       <p><l>je<s n="prn"/></l>                <r>jo<s
> n="prn"/></r></p></e>
>
> Évidemment il faut changer ou bien la définition dans le dictionnaire
> monolingue français, ou bien dans le dictionnaire bilingue. Mes questions
> sont les suivantes :
>
> 1. Y a-t-il quelqu'un qui soit en train de travailler sur
> apertium-fra/apertium-fra.fra.metadix ? S'il n'y a pas encore personne,
> peut-être pourrait-on y changer prpers par les formes plus faciles à
> comprendre je, tu, il, etc.
>
> 2. Quelqu'un sait-il de qu'elle paire à été pris le fichier
> apertium-fra/apertium-fra.fra.metadix qu'on a maintenant ?
>
> Hèctor
>

Je suis rentré de vacances hier soir et prends danc cette discussion en
retard. Toutefois, passer des vacances le plus possible sans internet,
c'est à dire sans email à traiter chaque jour et surtout sans suivre au
quotidien des discussions sur divers forums sans rapport avec Apertium
laisse du temps pour d'autres choses et c'est dans ces circonstances que
j'ai le plus de temps pour travailler sur Apertium (ce que j'ai fait
encore cette fois-ci, même si un problème de connexion à SVN aujourd'hui
empêche de voir le résultat).

Pour l'instant, je travaille sur les paire fra-por (dans staging). J'ai
eu travaillé (tu le sais) sur la paire eo-fr (devenue epo-fra).
Ces deux paires ont actuellement leur propres dictionnaires morphologiques,
mais pour une version validée de ces paires devraient/devront utiliser
les ressources de la branche languages.

Donc, jusqu'à présent, je ne suis jamais intervenu sur les fichiers de
apertium-fra , mais si la paire fra-por est dans quelques mois suffisamment
bonne pour la recetter, il faudra utiliser les ressources de apertium-fra .

Idem pour le sens de traduction epo -> fra . Il donne déja des résultats
intéressants :
La kato de la najbarino estas blanka
Le chat de la voisine est blanc
La malgranda katino de la maljuna najbaro ne estas blanka
La petite chatte du vieux voisin n'est pas blanche

Mais avec le transfert en 2 étapes que j'ai choisi au départ, ça fait
un grand nombre de longues listes de patern-item à traiter de manière
similaire et en écrivant à un transfert à 3 ou 4 étapes, il devrait
être possible de traiter toutes les varaintes avec un mot en plus ou
en moins de manière plus élégante et avec beaucoup moins de règle de
transfert.

Quand ce sera prêt, ça fera une autre paire à recetter pour les 2 sens
de traduction. Et là, encore, il faudrait utiliser apertium-fra.

Tout ça pour dire que le fichier apertium-fra.fra.metadix devrait
contenir tout le vocabulaire utilisé dans :
- l'actuel fichier apertium-fra.fra.metadix
- apertium-fr-es.fr.metadix
- apertium-epo-fra.fra.dix (dans nursery)

et à terme, les rajouts et corrections que je fais dans
apertium-fra-por.fra.metadix (et qui ne sont pas finis).

Explications :
apertium-fr-es.fr.metadix y est peut être déjà et le fichier
apertium-fra-por.fra.metadix doit en être dérivé, tout comme les metadix
d'autres paires avec le français, à l'exception de eo-fr -> epo-fra .

La couverture de vocabulaire de la paire epo-fra est excellente (meilleure
que celle de la paire fr-es que je juge très bonne). Pour cette raison,
si elle n'est pas intégrée dans apertium-fra , je l'y mettrai tôt ou tard.

apertium-epo-fra.fra.dix (dans nursery), est plus à jour (quelques mots de
plus) que apertium-eo-fr-fr.dix (dans trunk) que je ne maintient plus.


J'envisageais de toutes façon d'intégrer tôt ou tard (typiquement au moment
de recetter apertium-fra-por) ces différents dictionnaires. Si c'est fait
avant et testé avec les paires de langues qui utilisent déjà ces fichier,
on prend moins de risque.
Je pourrai même dans ce cas utiliser plus tôt ces dictionnaires.

Au passage, j'ai aussi une préférence pour les noms de paradigmes utilisés
dans la paire epo-fra (des mots du début de l'alphabet). Par exemple
accessoire__n plutôt que livre__n . Si on fusionne apertium-epo-fra.fra.dix
avec un autre dictionnaire, il y aura beaucoup de paradigmes équivalents et
souvent, c'est dans la paire epo-fra que le mot choisi est vers le début de
l'alphabet.

Accessoirement, choisir le/l'un des premier mot du dictionnaire qui utilise
un paradigme pour le nom de ce paradigme permettra de détecter d'un coup
d'oeil le paradigmes rares qui on peu de chances de commencer par 'a'.

Une autre chose (facile à prendre en compte) si on fait des metadix de
référence est, pour les paradigmes dont l'analyse donne le genre mf,
d'accepter aussi les genre m et f en génération.
Idem entre sp, sg et pl.
C'est déjà fait (au moins pour les paradigmes les plus courants) dans la
paire epo-fra et ce sera fait dans fra-por. Ça simplifie beaucoup l'écriture
des règles de transfert.


Pour ta question N° 2, ce serait à partir de la paire br-fr qu'aurait été
fait le fichier metadix dont on parle (d'après F Tyers en juillet dernier
si mes souvenirs sont bons).


Par rapport à la question des pronoms personnels, je voie effectivement
deux approches :

1) un pseudo lemme prpers qui dans le metadix est l'unique utilisateur
s'un paradigme qui pourrait d'appeler /__prpers et qui contiendra toutes
les variantes au niveau du numéro de personne, du nombre, et lorsqu'il y
a lieu du genre.

Dans le bidix, il y aurait juste une ligne du genre :
<e>   <p><l>prpers<s n="prn"/></l>     <r>prpers<s n="prn"/></r></p></e>

2) une définition pour chaque pronom personnel dans le metadix avec comme
nomn de lemme le vrai mot dans la langue

Dans le bidix, une correspondance pour chaque lemme :
<e>     <p><l>je<s n="prn"/></l>           <r>jo<s n="prn"/></r></p></e>

Je préfère nettement la version numéro 2 qui est plus intuitive. Elle
emmène à traiter les pronoms personnels comme les autres catégories de
mots avec dans le dictionnaire bilingue, le plus souvent possible, une
mise en correspondance de 2 lemmes avec seulement la catégorie du mot
précisée des 2 cotés.

Lorsqu'on reprend une paire de langues développée par quelqu'un d'autre,
trouver des lemmes "prpers" qui n'existent même pas dans la langue,
peut être déroutant pour un débutant.
Et si dans une traduction, on tombe sur l'erreur de transfert #prpers
il n'est pas forcément facile de savoir où corriger si on n'a pas
développé la paire. Il y a moins de risques d'erreurs de transfert
avec des correspondances de lemmes dans le bidix. Et même si on tombe
sur une erreur de transfert du type #je la traduction reste lisible.

Si dans une langue la deuxième personne du singulier donne la deuxième
du pluriel dans l'autre, c'est également facile à écrire dans le bidix.



--------------------------------
Bernard Chardonneau (France)
Phone : [33] 9 72 36 32 90
GSM phone : [33] 7 69 46 16 31

Multilingual websites for my free softwares :
http://libremail.free.fr and http://libremail.tuxfamily.org
http://cyloop.tuxfamily.org (mainly translated with Apertium)

My general website (in french only)
http://bech.free.fr

------------------------------------------------------------------------------
Check out the vibrant tech community on one of the world's most
engaging tech sites, SlashDot.org! http://sdm.link/slashdot
_______________________________________________
Apertium-stuff mailing list
[email protected]
https://lists.sourceforge.net/lists/listinfo/apertium-stuff

Reply via email to