The CMU Pronouncing Dictionary (cmudict.0.6d) を sdic で引けるようにする。
The CMU Pronouncing Dictionary を emacs から検索してみようと思い、sdic の形式に変換してみた。
awk のスクリプト。
{$1 = "< K>" tolower($1) "</K>"} /^<K>##<\/K>/ { $1 = "##" } { gsub(/\([1-9]/," &") } {print}
たったこれだけ。
ちょっとメモ。
cmudict では、行頭から最初のスペースまでが、見出し。
しかし、これが大文字。sdic は、キーワードを小文字にする必要があるようだ。
そこで、$1 を tolower() して、小文字にし、さらにその前後を<K> と <\/K>で挟む。
(ここまで1行目)
するとファイルの先頭などにあるコメントの行の $1 にも<K>##<\/K>の様になってしまうので、それを直す。
(ここまで2行目)
さらに、cmudict では、一つの単語に別の発音があるときには、二番目の単語以降に(2)...という具合に番号をつける。このままだとそれらの発音が検索が難しい。で、( の前にスペースを入れることにした。すると、ともに検索される。
(ここまで3行目)
最後の {print} で出力。これが4行目。
これで変換したファイルを適当な場所(例えば、~/sdic/cmu.sdic)において、.emacs などで次の様にすれば、ばっちり。
(setq sdic-eiwa-dictionary-list
'((sdicf-client "~/sdic/cmu.sdic")
(sdicf-client "/usr/local/share/dict/gene.sdic")
))
以上。
| 固定リンク
「パソコン・インターネット」カテゴリの記事
- Wormhole Switch JUC400(2014.07.05)
- Excel で時間や日や月の足し算や引き算をするには?(2012.01.14)
- Firefox 4.0 と楽天ツールバー(2011.04.14)
- Alex という aPad (Android 端末)(2010.08.30)
- Android な Pad を apad というらしい。(2010.08.25)
「言語学関係」カテゴリの記事
- 混成語の長さについて(2015.06.26)
- The CMU Pronouncing Dictionary (cmudict.0.6d) を sdic で引けるようにする。(2008.09.22)
- WAになっておどろう(2008.02.18)
- English Phonetic Symbol KK(Windows95/98/Me / 学習&教育)(2007.10.02)
- [Trees/Word] 続 MS-Word で均整のとれた樹形図を書く方法(2006.02.16)
この記事へのコメントは終了しました。
コメント