そういえば、このスレに集ってる真面目なメンバーに訊きたいんだが、
漢語の音便についての、公開されている使用料フリーのデータベースって、
どっかにあるんかいな。
で、あったとするなら、その表現形式って、どんなもの なのか。そのあたりの
情報が知りたいんだが。
たとえば、「説得」だったら「せっとく」なんだが、本来の音としては
「せつ-とく」だろ? それが音便の結果として「せっとく」に
なってるわけじゃないか。
だったら、「{{説|せっ}{得|とく}(せつ-とく)}」みたいなデータとして
表現されててくれないと、自然言語処理を行う上では不自由だろ?
そういうデータは、自由に使えないと困るじゃないか。
「{蒲公英|たんぽぽ}(タンポポ/たんぽぽ/{{蒲/ほ}{公/こう}{英/えい}})」
でもいいと思う。ただし、XML で書かれたりすると、こんどは国語学とかを
やってる人には理解できないし、わかるように表示すると、こんどはデータを
いじるのが面倒臭いんだよな。
だったら、「日本語処理と国語学の橋渡しをするような、共通言語としての
なんかしらの言語(表現形式)」っつーのは、あっていいんじゃねぇの?