自然言語処理スレッド　その５

**デフォルトの名無しさん** · 2020/07/08(水) 09:54:53.62

MeCabのC++ APIを使ってみようかと思うのですが。taggerでnodeを作って。

品詞はnode->featureの値のカンマ区切りを自分でパースしてゲットするので正解?
nodeに品詞の値の要素があってもいいのではと思ったり。

元のテキスト上のオフセットとノードの関係を知りたい場合、node->surfaceが元の
テキストのポインター? バイトオフセットを計算する必要があると。

UTF-16で使いた場合、MeCabってUTF-16でセットアップできるんですかね。それとも
UTF-8でセットアップして、プログラム上で毎回文字コード変換?

などという疑問が早速あるのですが、皆さんいかがしてますでしょう。
個人的にはJavaのBreakIteratorのような使い勝手が欲しいのですが...

自然言語処理スレッド その５

自然言語処理スレッド　その５