自然言語処理スレッド その5
レス数が950を超えています。1000を超えると書き込みができなくなります。
このスレッドでは、おもに日本語の構文解析・談話理解・情報検索・
文章生成などの、実装とそれに付帯する技術および理論について
扱いたいと思っています。 2020-04-27
番外編 98年ブルマJC (エッチなポーズ連続のエロダンスを強制される哀れな娘達)
https://vuluma.hatenablog.com/entry/erodancejcshuchi
↑
チンポがシコシコする、とはこういう意味だ! 問題がないわけじゃないけど
指標としてはいいんじゃない? パラレルコーパスって
ラベル付きデータって言えるの? MeCabの処理のデモを提供するいくつかのウェブのページで、
「複合名詞」とか「サ変動詞」とか、デフォではないと思われる要素を散見するのですが、
これって自分でカスタムなロジックを入れて作ってる、で正解ですかね?
大雑把に、名詞が連続したら複合名詞にするとか、「名詞+する」をまとめるとか。
それともそういうのも処理できるバージョンがあったりします? >>880
そうですか。例えば「形態素解析」を処理すると一般的には|形態|素|解析|か
|形態素|解析|と処理されます(辞書によります)。よね?
これを|形態素解析|と一語に処理してほしい場合にどうしたらいいのかと。
ちなみに mecab-ipadic-NEologd を使ったら|形態素解析|と一語になりましたが
辞書のサイズが1.1GBですか。これがロジックで済むなら大きな辞書を使わずに
同様の処理が可能なのかなと。 ロジックですまないから辞書にしてんでしょ
こねくり回した sentcepiece より random を加えた bpe の方が良くて草 >>882
なるほどー。
他にも、何月何日とか、〇〇円とかの数詞系を1フレーズと認識させたいのですが、
確かにこれもNElogdの辞書だとうまくいくんですよね。
あとは辞書の大きさだけがネックかも。 そっか、二百億円と書く以外に2百億円と書く場合もありますね。
NEologdでも後者は駄目っぽいです。 あとサ変動詞(〇〇する)、も「〇〇」と「する」をまとめたかったり。
〇〇「を」する という言い方もたまにするので微妙。 489 名無し三等兵 sage 2020/07/07(火) 13:32:25.30 ID:VR0moFYQ
やっぱり珍カスの別人格じゃんチンボ脳www
ケツ蹴るぞとか言われたら発狂して(でもチビるほど怖いから)別のキチガイ人格でレスして勝った気になるマジキチガイ、
それが珍カス MeCabのC++ APIを使ってみようかと思うのですが。taggerでnodeを作って。
品詞はnode->featureの値のカンマ区切りを自分でパースしてゲットするので正解?
nodeに品詞の値の要素があってもいいのではと思ったり。
元のテキスト上のオフセットとノードの関係を知りたい場合、node->surfaceが元の
テキストのポインター? バイトオフセットを計算する必要があると。
UTF-16で使いた場合、MeCabってUTF-16でセットアップできるんですかね。それとも
UTF-8でセットアップして、プログラム上で毎回文字コード変換?
などという疑問が早速あるのですが、皆さんいかがしてますでしょう。
個人的にはJavaのBreakIteratorのような使い勝手が欲しいのですが... goやらrustがあるのに?
しかもコマンドラインでやればいいようなことしかしてないくせに? javaやpythonのポーティングもあったよね
きうてぃーもあるのに 皆さん一般的な使い方のリンクをありがとう。そのレベルは一応大丈夫なつもり。
MeCabのAPI、パース結果と元のテキスト上の位置との関連を見つけにくいような。
パース結果だけを(で)取り扱う、という立ち位置なのか。
JavaのBreakIteratorはイテレータだけでなく元のテキストのオフセットで結果を得る
メソッド等もあり、パース結果と元のテキストとの関連をより処理しやすい。
(>>888の最後に書いたのはそういう意味。言語自体のことではなく。)
うーんもしかして必要に応じて自分で少し作り足したりする必要があるのかな? ちなみにJava APIはNode.getSurface()がStringを返してくるのでC++ APIとは違い
元のテキスト上のオフセットはわからないのではないか、という。
(まさかStringに対してポインタ演算みたいなことはしないですよね?)
これも、オフセットが必要な使い方はするな、という立ち位置なのかもしれんけど。 Java APIではNode.getLength()が要素のバイト長を返してくるようで(例えばUTF-8とか)。
しかしJavaで文字処理してるときにUTF-8のバイト長を教えられても、って感じはする。
ま、Node.getSurface()がStringだからそのlength()でいいんだろうけど。
Javaだけで使うならMeCab本体のエンコーディングはUTF-16の方がうれしいような。可能?
一方MeCab本体をUTF-8でインストールしてもJava API自体は動いているわけだから文字
エンコーディングのマッチングとか、何かしてるのかな? 511 名無し三等兵 sage 2020/07/07(火) 21:24:00.41 ID:e+um6EKL
カスミンが「「胸がドキドキする」は良いが、「チンポがシコシコする」はダメな理由を、50字以内で述べろ!」に霞ケ浦の回答をするのは何時なりや?
全世界は知らんと欲す そんなことしなくても
コマンドラインでできそう(笑) >>897
ん、上のMeCabの話へのレス?
プログラムの中で使いたいのでAPIについて考えているのだが。 AIがプロファイリングするとJava使えっていう結論が出た だからコマンドラインでできそうだなあってこと(笑) もうお前らどうでもいい。
MeCabの、自分にとって使いにくい部分はアダプタを書いてイテレータのクラスに
繋げた。今のところ若干無理矢理感があるがインターフェース自体はおk。
そういえば思い出した。
昔、Mac OS Xのライブラリを眺めていると何故かMeCabがあり、遊んでみたら何故か
辞書がUTF-16だった。
今になって全てわかった気がする。 テキストの処理で単語を処理単位にした方がいい場合がいろいろある。
ちなみにメヒビとかアオサとか割と好き。
しかしMeCab用の巨大辞書を某デバイスに突っ込むことは容認されるだろうか。
Text To Speechのファイルよりもでかかったらまずいか。
そういえばあれだってトークナイズとかしてるんだろうなあ。 読み上げ君とかは時々変な読み上げ方するが
MeCab使ってたらもうちょっとマシなんだろうか とりあえずMeCabの辞書って圧縮とかはかかってないっぽいかも。
squashfs上に置いたりしたら性能がどのくらい落ちるかな。 MecabはEUCやshift-jisが効率よいんですよ。 >>908
何の効率ですか? メモリ使用量? 処理速度?
今日び文字処理がUTF-16なAPIが少なくないので、連携して使うとするとMeCab側に
UTF-16のオプションがあると使いやすいのだが。
辞書は、UTF-8だと日本語が1文字3バイト使うのでやはりこちらもUTF-16だと
いいんじゃないかと。圧縮とかしてたら違ってくるけど。 というかJavaはでかいでしょw
Objective-CやSwiftのNSStringもUTF-16。
この時点で昨今のユーザー用デバイスの上は基本的にUTF-16ということであるw
C++にはchar16_tというUTF-16用のネイティブな型がある。 仕組みを知らないレベルなら、上からモノを言わないほうが良いのだろうけど。 わざと煽るとレスが増える
わざと間違えるとレスが増える
味を覚えたら繰り返す 人をおちょくることにだけ長けた古参が集う、そんなスレ。
自分からは生産的なことは何一つできない。
ザ・老害。 >例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。
当然ながら起きているときも、チンポがシコシコする!
風呂から出て体一杯に水を浴びながら竜哉は、この時始めて英子に対する心を決めた。裸の上半身にタオルをかけ、
離れに上ると彼は障子の外から声を掛けた。
「英子さん」
部屋の英子がこちらを向いた気配に、彼は勃○した陰○を外から障子に突きたてた。障子は乾いた音をたてて破れ、
それを見た英子は読んでいた本を力一杯障子にぶつけたのだ。本は見事、的に当って畳に落ちた。
その瞬間、竜哉は体中が引き締まるような快感を感じた。彼は今、リングで感じるあのギラギラした、
抵抗される人間の喜びを味わったのだ。
●これが衝撃の「障子破り」シーンだ! (石原慎太郎 『太陽の季節』 (新潮文庫) より)
>その瞬間、竜哉は体中が引き締まるような快感を感じた
チンポがシコシコする≠勃起、つまりそれはただチンポが勃起するのではなくて、
「体中が引き締まるような快感を感じた」ということなのである!! こんな過疎スレ、言うほど古参なんか集まってくる?(笑) mecab + ipadic、「10月」 とかの場合に「月」は助数詞として扱われないのな。
年や日は助数詞になるのに。月は数詞扱いじゃ駄目なん? 鬼滅の刃に出てくるやつ -> それは十二「鬼」月
でもこれって十二の鬼月(ただこの場合普通は「おにづき」)なのか、
十二鬼の月なのか。助数詞が変わってくる。 >>919
鬼月ってのはそういう苗字があるみたいね。確かに作者がどこかで「すべて実在する名前
から取ってる」みたいなことを言ってたか。
しかし、mecab-ipadic-neologd さんだと全て対応済みっぽい。
$ echo 十二鬼月 | mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd
十二 名詞,固有名詞,人名,姓,*,*,十二,ジュウニ,ジューニ
鬼月 名詞,固有名詞,人名,姓,*,*,鬼月,キヅキ,キズキ
EOS
echo 竈門炭治郎 | mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd
竈門炭治郎 名詞,固有名詞,人名,一般,*,*,竈門炭治郎,カマドタンジロウ,カマドタンジロー
EOS
echo 吾峠呼世晴 | mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd
吾峠呼世晴 名詞,固有名詞,人名,一般,*,*,吾峠呼世晴,ゴトウゲコヨハル,ゴトーゲコヨハル
EOS 人の名前はどうにもならないな
新しい名前はどんどん出てくるし
ラノベとかだと現実にあり得ない名前とか
普通に出てくる >>845
マスクの着用、手指のアルコール消毒に協力すればいいんだね。分かった! トランスフォーマーの Self Attention ってニューラルネットワークなの? >>921
ニューラルネットとかを使って文脈で「この位置に来るのは人名(少なくとも名詞)」
みたいのを精度高く判断できればいいんじゃないかと思ったり。
文脈がない(短い)場合は駄目なわけだけど。
あと、人間が文章を読んでいるときは「これ人の名前っぽい」って思う要素があるよね。
必ずしも文脈(だけ)じゃなくて字面も影響してるかなこれは。 >>926
ですよねw でも、ニューラルネットの学習規模をもっとでかくするとか...
で、巨大な辞書を利用することになるのかw
とりあえず、気に入らない分かち結果だけ自前のコードで修正して使うことにしました。 2020年07月29日 08時00分ソフトウェア
自然なブログを書いてしまうほど超高精度な言語モデル「GPT-3」はどのように言葉を紡いでいるのか?
https://gigazine.net/news/20200729-how-gpt-3-work/ 657 仕様書無しさん [sage] 2020/08/12(水) 11:11:53.67 ID:
>>655
ちんぽをシコシコするというのは主体が別に存在する(おそらく右手であろう)
しかし、ちんぼがシコシコするというのはちんぽさんが主体となって別の輪状、もしくは固定された箇所に向かって
往復運動をすることを言う
そしてそれはシコシコと形容される範囲内におけるような物体や部位である必要がある
つまり、日本語でいうところのチンポがシコシコするというのは文法上は正しい
しかしである
ちんぽは主語になってよいものかという問題が残る
ちんぽは思考できるのか、主体的な存在であるのかという疑問んである
我々はちんぽを自由自在に動かす事はできない
「勃つんだ!ジョー!!」などと呼びかけた人もいるであろう
ちんぽは人の付属物であると同時に1本の主体的な存在でもある
思考や意識といったものはないかもしれないし他動的な刺激により、また体調により変化を兆す。
つまり、チンポがシコシコするというのはチンポが主体的な存在かどうかが問われているのであり
勃起に至る過程からそれはまさに肯定されるべきなのである 『過信』
鳥塚 力(56)
世界一になりたくて人生を無駄にした。
バンドで野心をもって人生を無駄にした。
詩の天才を信じて人生を無駄にした。
母の私への願いは
平凡な家庭を持ち、正しき仕事をすること。
母の願いを裏切って、孤独のまま
もう平凡にも戻れない。
http://blog.esuteru.com/archives/9558461.html 意見が異なる人間を、自分たちの縄張りやコミュニティから、
はじき出そうと必死な人がいる。はじき出されないよう、
必死に気を配りまくり、意見を言わずに黙り込んでいる人もいる。
著名人であっても、ファンにそっぽを向かれないよう、
自分に貼られたレッテルから外れた意見を言わないよう、
振舞っている人を僕は見かける。
心の底から、気の毒だと思う。
そんなコミュニティにいて、楽しいのだろうか?
「はじき出してやろう」「はじき出されないようにしよう」
と必死な人たちに、何としてでも好かれたいのか?
僕は、まっぴらだ。
一緒にいて楽しくない人たちに好かれようと努力すると、
自分を見失ってしまう。
人生において、自分を捨ててはいけない。絶対にいけない。
「はじき出してやろう」としてくる人など、遠慮なく捨ててほしいと思う。
<堀江貴文「捨て本」67頁> 939 優しい名無しさん sage 2020/08/13(木) 11:29:23.57 ID:H3nfnQ6W
チンポ【が】シコシコするなんて言ってる奴聞いた事ねーよ
どこの方言?ダサww 314 太上天君 (ワッチョイ 9967-E2Bm) 2020/08/13(木) 18:33:48.27 ID:UPcr7eZE0
>>312
ぬしゃよ、はいぎぃ〜っぬしゃあ「シコシコする」の定義次第じゃな。
せんずりをこくことを「シコシコする」というのなら間違いじゃ。
センズリはチンコの自律運動ではなく、チンコの所有者の行為だからな。
「心臓がドキドキする」は主語である心臓自体の自律運動だから正しいのじゃw
はふんはふんおふんおふん。 >>849
>NLPの不完全性からの問題提起もオブジェクト指向の集約も夢精の例もほぼ意味がなく、
1: 以下、名無しにかわりましてVIPがお送りします 2013/03/31(日) 00:08:38.70 ID:GVdw15xL0
40秒くらいから着替えだが全体的にキチガイじみてる
http://majikichi.com/archives/7808383.html でもこれ自然言語で3桁の計算もできないんだよ(笑) 2かける3
を
3かける2
って書くと間違いにされるんだよな あんだけ膨大なパラメータがあっても
知性らしきものの欠片は見つかる程度で
ほとんど進展なし、ってのもねえ > お前は毎朝起きるたびに俺に負けたことを思い出すよ^^
あー、ホンッとに思い出すなあ(笑)
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い!」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君!
クソチョンw
Pythonさえろくにできないバカチョンのくせに
できるとほざくクソチョンw
日本で強姦と窃盗を繰り返す
犯罪者在日のクソチョンw 言語モデルは言語知識に特化すべきで
実世界モデルは別途組み込めるようにならないとダメだよね
よく設計されたタスクが出てこないと
そのあたりの技術もなかなか進展しないね 規則ベースって限界があるじゃん?
でもなんとかして論理を組み込まないといけないんだよね
どうすればいいんだろう。。。 >>744
>「チンポでシコシコ」とか
>ブツブツ言ってるだけで
チンポ❴が❵シコシコするんだが? 540 デフォルトの名無しさん 2020/08/26(水) 10:02:48.02 ID:NYX2/iU2
// おしっこルーチン
俺.パンツを脱ぐ()
while (俺.オシッコ残量 != 0) {
俺.オシッコ残量 -= 俺.チンポ.オシッコを出す()
}
do {
俺.チンポフリフリする()
} while(count < MAX && 俺.残尿感())
俺.パンツを履く() 多重継承は曖昧だというが、自然言語処理はその曖昧さが大切になる。チンポは随意筋であり不随意筋である。
最終的に,クラス階層は最上位クラスを含めた
最大8 階層から構成され,「伝統的な日本の絵画」
に属する用語に対応する 55 クラスと解説文中か
ら抽出した139 クラスが配置された。ただし,そ
のうち 32 クラスが複数の上位クラスをもつとい
う多重継承が示された。例えば,「ngyc:絵巻物」
は「ngyc:伝統的な日本の絵画」と,「ngyc:表具の
形式」の下位クラスである「ngyc:巻子」の 2 つの
クラスを継承する(図 2)。こうした多重継承は,
本質属性をもつ基本概念と機能を表すロール概念
を分離することで,基本概念による属性継承に限
った階層関係に変更するという考え方もあり 10),
「ngyc:伝統的な日本の絵画」がロール概念で,
「ngyc:表具の形式」が基本概念と捉えることもで
きる。しかし,本研究ではテキストからの情報抽
出に即して配置し,多重継承を許容した階層を導
き出した。
http://www.mslis.jp/am2019yoko/05_kobayashi.pdf
随意筋 不随意筋
↖ ↗
チンポ Janomeを使って何か自然言語処理の練習したいんだけど、良い題材ない? >>949
5chのテキストをパースして自動的に分類する >>950
タガ―って?
>>951
いただきます^^ > お前は毎朝起きるたびに俺に負けたことを思い出すよ^^
あー、ホンッとに思い出すなあ(笑)
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い!」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君!
クソチョンw
Pythonさえろくにできないバカチョンのくせに
できるとほざくクソチョンw
日本で強姦と窃盗を繰り返す
犯罪者在日のクソチョンw tranfomer について詳しく解説してあるページとか本ありませんか? 山ほどあるけど
調べられないのだとしたら
理解するのも難しいね google scholar で transformaer で検索
その中で英語論文を読む annotated Transformer わかりやすいかな https://arxiv.org/abs/2009.03393
これ面白そう
Generative Language Modeling for Automated Theorem Proving スタンフォードのinfilling by language modeling、頭いい 839 名無し三等兵 sage 2020/09/17(木) 13:10:27.16 ID:MgqlxbwX
サルのセンズリみたいに同じことばっかり言ってんなよ なんでわざわざbertを持ち出してくるのか
自社技術でもない上に改良型がでているのに
センスなさすぎない?
人間超えの精度をうたう日本語AIエンジン「ELYZA Brain」、各業界のパートナー企業を募集
https://it.impress.co.jp/articles/-/20402 601 大学への名無しさん sage 2020/09/25(金) 23:00:42.22 ID:Iqfa/Obf0
>>600
ネタとしてそういうこと思いついちゃったのは別にいいんだけどキミの文章は読んでてつまらないな
キミが今興味をもっていて伝えたいことは文章を読まされる側は最初の時点では微塵も興味ないんだよ
その温度差を埋める手順を踏まずにいきなりガーッと来られてもこっちはひいちゃうよ アハモジャ、で検索したら
茂木某がトップにでてきて草
どうやってるんだろう(笑) 677 大学への名無しさん sage 2020/10/08(木) 18:02:01.48 ID:KNTLGZSn0
30年近く前の絶版になったマンガを使い
この数年他のスレでも同じことを書き続ける
何をどうこじらせたらこんなふうになるんだ?
こんなのばっかり 財布の忘れ物は戻ってくるっていうけど
傘は盗まれるそして戻ってこない レス数が950を超えています。1000を超えると書き込みができなくなります。