【統計分析】機械学習・データマイニング26

2019/09/15(日) 09:23:06.34

機械学習とデータマイニングについて語れ若人

＊機械学習に意識・知能は存在しません。
人の意識に触れたい方はスレ違いです

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
Machine Learningを用いた論文一覧2018
https://shiropen.com/seamless/machine-learning/2018
2017年のディープラーニング論文100選
https://qiita.com/sakaiakira/items/f225b670bea6d851c7ea
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング23
https://mevius.5ch.net/test/read.cgi/tech/1551352040/
-
【統計分析】機械学習・データマイニング25
https://mevius.5ch.net/test/read.cgi/tech/1561568018/

【統計分析】機械学習・データマイニング24
https://mevius.5ch.net/test/read.cgi/tech/1556674785/
-
VIPQ2_EXTDAT: checked:vvvvvv:1000:512:----: EXT was configured

VIPQ2_EXTDAT: checked:vvvvvv:1000:512:: EXT was configured

2020/01/01(水) 16:47:20.30

>>803
お前はバカなんだから黙ってろ

2020/01/01(水) 17:02:22.17

>>805
捏造とは言わんが、特定のデータにチューンして宝くじ効果で上手くいったよね
みたいな論文ばっかだと思われる。
MNIST、CIFER10でしか実験してない論文とかな。

2020/01/01(水) 17:17:44.38

>>805
公開情報のみから判断した人に捏造と疑われても仕方がないということ
>>801は「ソース公開されないと実行できないとかいうレベルの人向けに書いてるわけじゃない」と言っているが論文をいくら読み込んでも必要な全情報が含まれないことなどザラにあるのだから実行して確認したくてもできないことが多い
だったら最初からソース丸ごと公開しろよ、ということ
その方が無駄な疑いに基づく手探りの検証過程などすっ飛ばして早く自分の成果を認めてもらえるのだから

2020/01/01(水) 17:26:30.85

結果が疑わしかったり論拠があやふやな論文はさすがに査読で落とされていると信じたいが。
大半がそんな状態だというのが共通認識だとしたらいまごろもっと問題視されてないか？

2020/01/01(水) 17:50:51.23

水面下では問題視されている
結果が良すぎたり、特定の国の人が書いた論文は
信用されない

2020/01/01(水) 18:22:02.12

>>809
だから普通に問題視されてるだろ。
http://blog.livedoor.jp/tak_tak0/archives/52421590.html

2020/01/01(水) 19:32:55.99

だから日本は遅れてる
何とかしろよ

2020/01/01(水) 19:46:28.03

それが共通認識になっていたとしたらもっと大問題にされているだろうと言っている。

2020/01/01(水) 19:52:14.44

連日報道でもされん限り問題になってないとか思っちゃうバカ？
何をもって問題になってるなってないというかによるとしか言いようがない。
使ってなけりゃ社会的な問題にはならんだろうし。
少なくとも「まるっきり信じてやったら上手くいきませんでしたー俺は悪くありません」
とか言い出す奴は、自分の職場では大問題だわ。

2020/01/01(水) 20:34:27.25

「論文に書いてあることなんて信用できないからその通りにできなくても俺の責任じゃありません」
と言ってるのかと思ったが。

2020/01/01(水) 20:50:13.15

>>809
> 結果が疑わしかったり論拠があやふやな論文はさすがに査読で落とされていると信じたい
希望論でつねわかります

>>815
実験系だと
論文の結果そのものは
往々にしてミラクルなオリンピックレコード的な伺か
って暗黙の了解なんだけどぬ・・・

2020/01/01(水) 21:00:46.16

もう馬鹿は「再現性なんてなくても問題ない」と思ってりゃいいよ。
お前の中ではそれでも問題ないんだろう。

2020/01/01(水) 23:03:53.85

実装が公開されてるけど、実行しても論文通りの結果が出ないとか普通にあるしなぁ
ソースが公開されてても査読者は暇じゃない限り実行せんしな

2020/01/01(水) 23:48:05.60

さらにデータを開示してもらわなければならない
「このデータ・セットではうまくいった」
実はそのデータ・セット以外ではうまくいない
じゃあダメじゃん
よくある話だ

2020/01/02(木) 07:41:44.81

まともな論文はオープンなデータを使うか
実験に使ったデータを公開してる

JST、産総研、NICT、理研、NTTあたりはこれらもやってない

2020/01/02(木) 09:14:28.28

オープンなデータを使っているけど
データを恣意的に選択して実験しているため
他の人がやっても再現できないというのも
よくあるパターン
別に日本だけではないが

2020/01/02(木) 11:12:59.42

データの選択によって再現性が失われているなら、抽出データが偏ってるし、
普通は検証段階で確認する

しかし、精度の高いモデル作りました→実践投入
で、新規データを食わせたら精度が右肩下がりって良くある光景

2020/01/02(木) 14:08:56.51

>>812
箱根マラソンもビッグデータωで戦ってるそうだ
https://toyokeizai.net/articles/-/321510?page=3

2020/01/02(木) 14:23:33.66

>>822
よく言われる過学習になってると思う
過学習かそうでないかは未知データで訓練と同程度の性能が出るかどうか以外の判別方法ある？

2020/01/02(木) 19:01:13.39

ない。あったらみんな飛びついてる。

2020/01/02(木) 19:18:29.62

そういうわかりやすい汎化性能を表す指標ってものがあったら、それをロスに組み込めばいいわけだ。
だがそんな状況にはなってない。

2020/01/02(木) 22:19:42.02

希望の結果に成らなかった事柄全て、過学習と言ってしまうことのないように

2020/01/02(木) 23:09:33.24

日本の研究期間は
本当の意味で研究に寄与してない

松尾豊あたりがちゃんと言わなきゃダメだろ

2020/01/03(金) 09:51:46.65

そんな自分を全否定するようなこと言えないだろw

2020/01/03(金) 10:33:40.29

PyTorchとTensorFlow - 学界と産業界で有力なMLフレームワークはどちらか
https://www.infoq.com/jp/news/2019/12/State-Machine-Learning-fw-2019

2020/01/03(金) 11:57:25.32

>>827
ほんそれ
日本の教育構造の欠陥だな

2020/01/03(金) 15:30:23.04

>>831
主語デカ

2020/01/03(金) 16:10:33.70

粗探し <<<< 欠点の解消の実行

2020/01/03(金) 17:04:32.60

過学習の判定は当然ながら一定数の推論結果を総合して行うわけで個別の推論結果が希望通りかどうかなんてことはそもそも眼中にない
>>827は過学習が何なのか、どうやって過学習か否か判定するのかすら理解していないのだろう

2020/01/03(金) 17:59:55.69

松尾豊にダメ元で意見を送ってみることにした
実装とデータをgithubで公開することを基本にしろ、と
そうしないと日本の研究は停滞したままだ、と

2020/01/03(金) 18:29:08.35

>>835
松尾に送ってどうするよ

2020/01/03(金) 18:34:20.22

繰り返しますが、うまくいかなかった事柄を過学習とラベリングし、考えることを止めないように。
過学習って言葉は使用禁止にしたいぐらいですね

2020/01/03(金) 18:37:58.64

>>835
松尾って奴には何も期待してないから別にやらなくてよい

2020/01/03(金) 19:54:17.54

線形代数とか難しいんだけど、ライブラリ使いこなすだけだとやっぱりしぬ？

2020/01/03(金) 21:15:55.83

機械学習は置いといても線形代数は理解してた方が今後の人生のためにはなる。

2020/01/03(金) 22:46:08.59

>>835
経産省と文部科学省に言うべきだが、
>>835が進言するより、松尾や落合が言った方が聞く耳を持って貰える

2020/01/04(土) 01:07:26.61

聞いてるふりをして聞き流してますよ

2020/01/04(土) 08:10:20.67

PFNの連中でもいいけど
日本のAIベンチャー（笑）から建設的な意見が出てこないのも悲しい

やっぱり山師なんだろう

2020/01/04(土) 10:56:49.96

実装を公開するといっても、実装した人の特異な環境、設定で
やっているかもしれないし。次はそれをもっと標準的な環境で
公開しろということになってきりがないような気がするが

2020/01/04(土) 11:08:32.58

まずは米国並みに公開すればいい。問題が出てきたら他国でも問題になるだろうから皆で考えればいいさ

2020/01/04(土) 11:41:58.28

公開するのってキリスト教的な考えなのかな
寄付みたいな

日本はどうも閉鎖的

2020/01/04(土) 11:42:29.12

複数のデータセットでエラー率を測定して
その母比率を区間推定して
下限値が要求するレベルを超えているかどうかで
そのモデルを採用するか否か判別する方法はどうか

エラー率を他の指標にしてもいいかもしれない

2020/01/04(土) 11:43:40.22

過学習しているモデルなら
エラー率の分散が大きくなると予想して
区間推定の区間が広くなって
下限値が下がると思う

2020/01/04(土) 11:56:52.06

複数のデータセットをそんな簡単に用意できるわけないだろ。
クロスバリデーションからやり直し。

2020/01/04(土) 11:59:21.87

>>846
科学的なものではないか

材料系の実験論文は、材料と手順を書いても追試困難なものも多いそうな
計算機上で出来る実験はエビデンスとしてソースが使えるから、公開したら説得力が増して良いことばかり

2020/01/04(土) 12:19:30.68

問題は説得力と信頼性を得ても金にならんてことだけどね。

2020/01/04(土) 12:31:23.41

線形代数が難しいって言ってる人に聴きたいんだが
具体的にどの辺で詰まってるの？

2020/01/04(土) 12:33:42.39

論文の説得力が増しても給料上がったりに繋がらないなら、研究者の評価の仕方が違うんかね
お役所はどこを見てるのか

2020/01/04(土) 13:01:13.27

随伴行列とか

2020/01/04(土) 13:12:18.47

>>844
イメージも一緒に公開するまでだ

2020/01/04(土) 13:20:23.20

>>849
訓練に必要なデータ数はどの程度か目安を計算する式ある？
テスト用ならそれよりもっと少なくていいんじゃね？

2020/01/04(土) 14:13:41.19

教育やってるけど難しいと言ってる人は大抵固有値問題で引っかかる

2020/01/04(土) 14:39:53.48

固有値で引っかかり
ジョルダン標準形で完全挫折

2020/01/04(土) 15:16:22.42

固有値では引っかからんだろ、ジョルダン標準形なら分かるが

2020/01/04(土) 16:07:21.47

線形代数は大抵の大学の講義がひたすら定理の証明をなぞるだけで何のためにやってるのか説明しないからいつしか付いていく気が失せるのが問題

2020/01/04(土) 16:55:02.67

>>853
何本かいたか＆何回発表したか　しかかぞえてないぉ
だから
プレデター（ハゲタカ）ジャーナルとかプレデターカンファレーションがわらわらわー

2020/01/04(土) 17:12:16.04

じゃなくて
研究者としての矜持くらい持てよ

2020/01/04(土) 17:15:40.43

矜持と予算がケンカする現状なのー

2020/01/04(土) 17:58:28.14

正当な評価を受けたいまともな研究者は海外へ出ていくだけ

2020/01/04(土) 19:20:25.08

ロジック/ロジカルシンキング/論理的思考と一般的に呼ばれるもので物事を解決しようとすると、基本的な問題解決のための方法は
帰納法によるアプローチ
演繹法によるアプローチ

この二つの何れかのアプローチに分けられる。

2020/01/04(土) 19:24:33.17

前者は、これまでの実績/経験則を元に一般法則を推定しようとするアプローチである。

一方後者は、確固たる前提/原理原則/一般規格から、確固たる結論を得る方法である。

2020/01/04(土) 19:27:21.07

例えば、ハイパーパラメータを弄って一定の効果・傾向を掴み、それを元に上手くいった/いかないを結論付けようとするのは帰納法による推論である

2020/01/04(土) 19:33:21.25

他方、小学1年の算数の例であるが…

1＋1は2である。

これは、小学生1年生であろうが学校の先生であろうが、会社の社長であろうが一国の首相であろうが同じ答えを答えるだろう。

2020/01/04(土) 19:34:05.47

>>861
引用数も評価されると思ってた
引用稼ぐにはソース公開はいいと思うけどなあ

2020/01/04(土) 19:37:44.95

ただし、
数字を十進法ではなく二進法で表せば1+1=10である。

他に、
1＋1の『+』の加算の定義を『×』乗算の定義と入れ換えれば1+1＝1である。

あるいは、
2という数字の定義を5と入れ換えれば1+1＝5である。

2020/01/04(土) 19:39:43.23

加算の定義、数字の定義、数の定義を全て正しいものと仮定して始めて1+1は2となる。

2020/01/04(土) 19:41:39.97

ここの人は是非、自分のやっていることが前者で進めているのか、後者で進めていることなのか、よく考えてほしい

2020/01/04(土) 19:47:32.97

帰納法で得られた結果はあくまでも推定の域を出ない。

例え10回やって10回ともいい結果が出たとしても11回目に100%よい結果が出るかどうかは保証はない。

2020/01/04(土) 19:50:57.56

他方、演繹法は絶対的・普遍的な解を得ることができる。

これは非常に強烈なロジックなのだが、残念ながら日本ではこのアプローチを重視する人材が非常に少ない、というかいない

2020/01/04(土) 19:52:14.75

公衆無線LANで何寒いこと書いてるねん

2020/01/04(土) 20:19:20.64

ねー
文系出身のワナビーだろう

直感はどちらに分類されるのだろうね

2020/01/04(土) 20:27:40.67

>>869
そういえばそんなのもあったが
だいたいはお友達ｗ同士で相互に引用しあって一蓮托生というね　もうね

2020/01/04(土) 20:43:29.49

>>876
帰納法

2020/01/04(土) 20:52:46.32

日本での研究者の評価というと、真っ先に思い浮かぶのが科研費
過去の論文の数を基に、今後の計画を立てて予算申請する
一応審査しているのは専門家
専門性の高い論文を書いているかどうかが評価の基準
情報公開は・・・評価されるのかな?
そういうのを書く項目がないような気がする

2020/01/04(土) 21:56:53.64

君たちG検定はとるの？

2020/01/04(土) 22:06:24.08

>>856
そんなものはない。
あってもVC次元使った奴とかバウンドが実際のデータ数よりも圧倒的に多いものしか計算できなくて
全く使い物にならん。
テストデータのサンプル数も何回か試して精度が安定する個数に設定するってのが現状。

この仕事、やってない奴ほど理論でなんとかなると思ってんだよな。
そこが実際とのギャップになってめんどくさい議論を増やしてる。

2020/01/04(土) 22:16:11.54

相対性理論は帰納法で導かれたよ

2020/01/04(土) 22:31:38.39

相対性理論は
仮説推定⇒演繹法による検証⇒ローレンツ変換不変の前提のもとで100%正しい

2020/01/04(土) 22:34:59.55

仮説推定の検証が実験のみか理論かで分かれる

2020/01/04(土) 22:36:39.92

>>881
それはお前及びお前が出会ってきた人間がヘボいだけ

2020/01/04(土) 22:39:40.66

>>885
そうだな。お前みたいなヘボイ奴ばっか相手にしてる。

2020/01/04(土) 22:41:53.90

例えば一般相対性理論は慣性質量と重力質量は等価である等の
小さな原理から大きな理論を構築した帰納的思考によるもの

2020/01/04(土) 22:45:01.46

だから仮説推定の後すぐに演繹法による検証をやってるのがアインシュタイン

2020/01/04(土) 22:46:21.57

実験やってないんだよ

2020/01/04(土) 23:11:36.37

実験したとかしないとか関係ないし

2020/01/04(土) 23:15:56.70

？？

2020/01/05(日) 06:22:18.52

自然言語処理のツールの使い方を覚えたいんですが
具体例のあるブログ記事ってないでしょうか

keras とか ALBERT とか tensorflow とかでてくるんですが
どれもインストール方法とかの説明はあるんですが
はじめからセットしてあるモデルに対して精度を出力して終わりみたいなブログ記事ばかりで
実際に日本語で質問文を投げてAIが返答するようなプログラムの書き方みたいなのが一切出てこないです

どうやって勉強すればいいんでしょうか

情報系の大学院生でプログラムはそこそこ経験があるんですが
AIに関しては原理を講義でならっただけでtensorflow すら使ったことがないレベルです
もうじき就活がはじまるのでAIが使えるってだけで有利になるらしいので
サンプルシステムを作ってみたいと思ってます

2020/01/05(日) 06:28:31.48

それは世間的には基礎的かもしれないが
現行のAIはそこまで対応してないだろ
文書の内容を機械が理解するのは高度
とりあえず日本→英語の翻訳を実装してみれば手がかり、オリジナリティを得られるのでは?
一般的な、唯一の手法はないという前提だが、じぶんがしらないだけかもしれないが

2020/01/05(日) 06:35:30.27

2019/08/19 05:01
AI翻訳が人間超え、言葉の壁崩壊へ
1人に1台、自動翻訳機、多言語“通訳”がポケットに
第1部：市場動向
https://tech.nikkeibp.co.jp/atcl/nxt/mag/ne/18/00046/00001/

2019/08/20 05:02
AI翻訳が人間超え、言葉の壁崩壊へ
トランスフォーマー時代到来、翻訳技術から汎用言語系AIに
第2部：技術動向
https://tech.nikkeibp.co.jp/atcl/nxt/mag/ne/18/00046/00002/

2020/01/05(日) 06:41:07.68

総務省・NICT主催「多言語音声翻訳アイデアコンテスト」(第2回)優秀賞決定！
多言語音声翻訳コンテスト運営事務局 2019年12月19日

総務省と国立研究開発法人情報通信研究機構（NICT）は、12月14日（土）TEPIAホールにて、
多言語音声翻訳技術の更なる普及や多種多様な翻訳サービスの出現を加速するため、
世界の「言葉の壁」をなくす新しいアイデアを募集する「多言語音声翻訳アイデアコンテスト」（第2回）審査会及び表彰式を開催いたしました。
https://prtimes.jp/main/html/rd/p/000000002.000050519.html

2020/01/05(日) 06:55:10.09

機械学習だと固有値って教本にやたら出てくるけど具体的にどこで使うの？主成分分析だけ？

2020/01/05(日) 07:05:39.44

>>893
ツールを使うだけではBOT同志で会話するっていうのは無理で
かなり高度なチューニングの知識？がいるってことなんでしょうか

ライブラリに適当な文章大量に流し込めば勝手に知識獲得してしゃべりだすものかと思ってました

2020/01/05(日) 07:15:11.42

人工知能が2019年センター試験の英語筆記本試験で185点を獲得 2019年11月19日

人工知能プロジェクト「ロボットは東大に入れるか」の一環として、大学入試センター試験の英語筆記科目に挑戦した結果、185点(偏差値64.1)の成績を収めた。

NTTコミュニケーション科学基礎研究所(NTT CS研)ではこのプロジェクトを自然言語処理および知識処理の基礎研究を進めるベンチマークとして捉え、自動解答に関する知見を積み重ねてきた。

近年は深層学習に基づく文書読解技術が進展しており、そのなかの最新技術であるXLNetは、大規模テキストによる事前学習をベースモデルに、問題の性質に合わせた移転学習を施すことで、異なる種類の問題を比較的少量のデータから効率的に解くことを可能にした。

しかし、学習に利用できるデータが大きく不足している問題や、解答に辞書的な情報が不可欠な問題では、十分な精度の解答が得られなかった。
今回NTT CS研は以下の点で改善を施し、過去3年間のセンター本試験/追試験に対して適用した結果、安定して偏差値60以上を達成したという。

不要文除去問題の高精度化
機械学習は正解と不正解のデータの両方を入力して学習するが、文章から不要な文を見つける比較的新しい「不要文除去問題」には適用できない。
というのも、通常の文章には不要な文が含まれておらず、学習に用いるデータを集めることが難しいためだ。このため従来のAIでは、本試験/追試験で15問中6問しか正解できなかった。

そこで、不要文を含まない通常の文章から、文の順序を組み替えて擬似的に不自然な流れを作成することで、大量の不要文除去問題を自動作成する手法を考案。
これにより15問すべて正答できたという。また、過去問や独自作成問題からなるベンチマークデータにおいても、正答率を60%から86%までに高められた。

https://pc.watch.impress.co.jp/docs/news/1219388.html

2020/01/05(日) 13:14:15.07

>>881
ないならつくるのが研究者の課題じゃ無いのかな？

2020/01/05(日) 13:16:19.91

科学って帰納的に仮説を立てて実証することの繰り返しじゃね？
その仮説を立てたりどんな実証方法があるかを考えたりするのにこれまでに判っている事を演繹的に適用して論理展開する
両方の思考が必要だと思う

2020/01/05(日) 13:17:44.79

>>882
時間や空間が絶対的なものではなくて光の速さが絶対的だと言う仮定を元に演繹的に論理展開していったものだと理解している

2020/01/05(日) 13:19:41.39

>>890
あなたはそうかもしれないけど世の中的には
実験で確認されて初めてノーベル賞もらったりしてるけどな
ヒッグス粒子もそうだったし

2020/01/05(日) 13:31:19.77

マウント合戦

2020/01/05(日) 13:34:07.84

物理は実験が主だよ
アインシュタインみたいな理論屋は凄いけど実験で確認出来なかったら只の妄想

2020/01/05(日) 13:41:29.59

イタチ野郎