MeCabのC++ APIを使ってみようかと思うのですが。taggerでnodeを作って。
品詞はnode->featureの値のカンマ区切りを自分でパースしてゲットするので正解?
nodeに品詞の値の要素があってもいいのではと思ったり。
元のテキスト上のオフセットとノードの関係を知りたい場合、node->surfaceが元の
テキストのポインター? バイトオフセットを計算する必要があると。
UTF-16で使いた場合、MeCabってUTF-16でセットアップできるんですかね。それとも
UTF-8でセットアップして、プログラム上で毎回文字コード変換?
などという疑問が早速あるのですが、皆さんいかがしてますでしょう。
個人的にはJavaのBreakIteratorのような使い勝手が欲しいのですが...
自然言語処理スレッド その5
■ このスレッドは過去ログ倉庫に格納されています
888デフォルトの名無しさん
2020/07/08(水) 09:54:53.62ID:15dYshT+■ このスレッドは過去ログ倉庫に格納されています