辞書引きは一応片付いたことにして、次は形態素解析だ。
語彙の部分には、品詞の分類というものがある。ただ、
これがなかなかの難物なのだ。
たとえば日本人なら、日本語の動詞をそのまんま
書いて「動詞」と書いておけば辞書として役に立つ。
ただ、外国人やコンピュータ様は動詞の語幹部分を
別々の形態素として辞書登録しておいて、辞書引きが
終わった段階でパーツを組み立てて「これはどういう
品詞のナニナニ形だ」と提示しなければならない。
するってぇと、たとえば「書かされたがらなかった」
はどうなるかというと「動詞・書k+使役・as+
受動・aれ+欲求・た+表出・が+否定・なk+
過去または完了・aった」と、別々の品詞として
辞書登録しておかなければならなくなる。
「こんなんやっとれるかぁ!」と怒りだす奴が
いそうだが、これは辞書を「形態素(=名前のない
形態素)」の辞書と「品詞(=名前のある形態素)」に
分けて、前者は「開始点の文法属性+マッチング文字列+
終点の文法属性」として管理し、後者は「品詞+辞書登録形」
で辞書かしておいて、適当なツールで「開始点の文法属性+
マッチング文字列+終点の文法属性」に変換してやる(もちろん、
マッチングに不必要な活用語尾は取り去る)という操作を
行なうわけだ。
これによって、解析開始点から「解析開始点の属性」→
「開始点属性」→「マッチング文字列」→「終点属性」ときて、
ここから次々と「終点属性」を「開始点属性」とみて
探索を行なってゆけば、自動的に形態素解析が行なえてしまう、
ということになる。
なお、単なる「かな漢字変換」レベルの処理だったら、
これだけで市販の IME が吹っ飛ぶくらいの威力のある
変換システムができあがる。もちろん、候補の優先度とかいった
塩梅は必要ではあるのだが。
探検
自然言語処理スレッド その4
■ このスレッドは過去ログ倉庫に格納されています
729デフォルトの名無しさん
2018/09/06(木) 06:02:39.83ID:8UoLzWRo■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 人間の髪の毛は押し出されるのではなく「引っ張られる」ことで成長する [少考さん★]
- (社説)スパイ防止法の策定 民主社会の基盤を崩さないか:朝日新聞 [少考さん★]
- グリコが「ポッキー」など600万個自主回収 チョコに香辛料の香り [少考さん★]
- 【国内総生産】実質GDP、年2.3%減に下方修正 設備投資落ち込み 7~9月期改定値 [ぐれ★]
- 世界的DJ沖野修也、高市早苗首相のアーティスト海外展開支援めぐり疑問「補償が先ではないですか?」 ★2 [muffin★]
- パナソニックHD、野球部休部へ 来期、構造改革の一環で [征夷大将軍★]
- 元外交官や大学教授「原因は高市が作った。発言を撤回せよ」記者会見を開く [931948549]
- 地方創生☆チクワクティクスでひなビタお🏡を萌え起こしめう!
- 高市「減反します」→叩かれたため「多様なコメの増産を進める!」と言い始める😮 [931948549]
- 高市首相「多様なコメの増産を進める」 [256556981]
- 🏡👊😅👊なにここ珍百景👊😅👊🏡
- 予算10万円でゲーミングPCを組みたいんだが
