25000×25000=626000000通りの「共起関係」、及び29種類の「属性」を、人力で分析してアノテーションコーパスを作成すべき!

(3) 学習語彙:小学生用の国語辞典に登録されている語彙約 25000 語。語彙数は,『新教育基本語彙』[3]などを根拠とする。
小学生の理解語彙の上限を示すとされる。
http://www.nise.go.jp/kenshuka/josa/kankobutsu/pub_f/f-141/f-141_2.pdf

本研究では,意味の似ている語をまとめると共起ベクトルの距離は近くなるという仮定を前提に,単語間の共起頻度を用い
るのではなく,単語に付随する意味属性を利用する.単語の意味属性には,単語を意味によって分類整理したシソーラスであ
る分類語彙表を利用し分類語に適用する.
http://db-event.jpn.org/deim2015/paper/335.pdf

意味役割の種類
現段階での意味役割の種類を記述する.大きく 4 つの類にわけて,中分類で 29 種類を定義した.
さらにこれらに対して属性タイプが付与される形である.まず 29 種類を以下に示す.
構文類 ? 連語,外の関係,補語相当
対象類 ? 経験者,被使役者,対象,基準, 相互, 起点,着点,起点・着点,通過点,経路,方向
動作主類 ? 使役,原因,動作主,使役者,手段
条件周辺類 ? 限界,領域,場所,時間,条件,様態,程度,目的,順接,逆接
http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no6_papers/JCLWorkshop_No6_06.pdf