« fedora 自動アップデート | トップページ | The CMU Pronouncing Dictionary の新しいバージョンが出てた。cmudict.0.7a »

The CMU Pronouncing Dictionary (cmudict.0.6d) を sdic で引けるようにする。

The CMU Pronouncing Dictionary を emacs から検索してみようと思い、sdic の形式に変換してみた。

awk のスクリプト。

{$1 = "< K>" tolower($1) "</K>"}
/^<K>##<\/K>/ { $1 = "##" }
{ gsub(/\([1-9]/," &") }
{print}

たったこれだけ。

ちょっとメモ。

cmudict では、行頭から最初のスペースまでが、見出し。

しかし、これが大文字。sdic は、キーワードを小文字にする必要があるようだ。

そこで、$1 を tolower() して、小文字にし、さらにその前後を<K> と <\/K>で挟む。

(ここまで1行目)

するとファイルの先頭などにあるコメントの行の $1 にも<K>##<\/K>の様になってしまうので、それを直す。

(ここまで2行目)

さらに、cmudict では、一つの単語に別の発音があるときには、二番目の単語以降に(2)...という具合に番号をつける。このままだとそれらの発音が検索が難しい。で、( の前にスペースを入れることにした。すると、ともに検索される。

(ここまで3行目)

最後の {print} で出力。これが4行目。

これで変換したファイルを適当な場所(例えば、~/sdic/cmu.sdic)において、.emacs などで次の様にすれば、ばっちり。

(setq sdic-eiwa-dictionary-list
'((sdicf-client "~/sdic/cmu.sdic")
(sdicf-client "/usr/local/share/dict/gene.sdic")
))

以上。

|

« fedora 自動アップデート | トップページ | The CMU Pronouncing Dictionary の新しいバージョンが出てた。cmudict.0.7a »

パソコン・インターネット」カテゴリの記事

言語学関係」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/11083/42556995

この記事へのトラックバック一覧です: The CMU Pronouncing Dictionary (cmudict.0.6d) を sdic で引けるようにする。 :

« fedora 自動アップデート | トップページ | The CMU Pronouncing Dictionary の新しいバージョンが出てた。cmudict.0.7a »