【統計分析】機械学習・データマイニング22

2019/01/13(日) 09:13:37.19

機械学習とデータマイニングについて語れ若人

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング21
https://mevius.5ch.net/test/read.cgi/tech/1541309676/

VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured

2019/02/25(月) 20:51:21.96

不良品の検出って
毎回同じサイズ、角度、輝度、サイズだから
回転させたり捩らせたり拡大したりしたら精度下がりそうよね

2019/02/25(月) 20:58:01.22

>>900
基本的にはとにかくデータを数多く用意するのが良い

2019/02/25(月) 21:02:27.32

とにかく増やせってのは乱暴すぎるなぁ
やっていい加工とやっちゃいけない加工がある

2019/02/25(月) 21:03:20.83

kreasてマルチスレッドで学習済みモデルloadできないのかよ
弱ったなぁ

2019/02/25(月) 21:19:27.11

>>900
>毎回同じ
それはデータによるから性質よく知ってないとね

2019/02/26(火) 00:17:58.46

同じようなことやってるのね。異物は分類精度80％越えるけど、キズは認識しなかったな。

keras でVGG16　FineTune/ 画像110枚　での結果です。

2019/02/26(火) 01:17:49.05

そこにaiはない

2019/02/26(火) 08:30:32.92

大量の不良品パターンか
大量の良品パターンだけでも
なんとかなるだろ

2019/02/26(火) 08:58:01.36

良品のみから不良品を見つけるのは必ずしもできるわけではない
不良品を不良品と判断するための特徴量が見えていない場合などがそれに当たる

2019/02/26(火) 09:11:33.00

二値分類みたいのは面倒なんだよね

2019/02/26(火) 10:37:18.94

>>896 です
レス頂いた方ありがとうございます
>>905
自分も同じ手順を試してみたいと思います
もし良ければ参考にされた資料や記事などはありますでしょうか？
Kerasを使おうかと思うのですが始めて使用するので何から手をつけて良いか分からなくて…

2019/02/26(火) 10:54:57.26

>>910
この辺
https://qiita.com/dddmm/items/9e4d9e08a071cfa4be83

GPUないなら止めておいたほうがいいぞ

2019/02/26(火) 11:18:09.30

>>911
ありがとうございます
keras自体の導入は済ませております
説明が分かりにくくてすいません
ただどちらにせよGPUが無い環境なのでやるにしても制約が多そうですね…

2019/02/26(火) 11:37:27.80

>>912
「keras　二値分類」で検索すれば色々出てくるよ
https://qiita.com/yakisobamilk/items/686d6ad5ae3285aec639

二値分類ぐらいならGTX750ぐらいでも行けるとおもう

google colaboratoryってクラウドの無料サービスもあるけど、色々とどうにも面倒くさい

2019/02/26(火) 11:38:20.51

>>911
Colaboratory使えばなんとでもなるさ

二値分類を複数のモデルでやってみたことある
画像サイズを480にしてあげると
Xception だとで89%
Inception_resnet_v2 で86%
この2つのモデルから推測させて、
・両方NGならダメ
・片方NGなら要検証
・両方OKなら通過
ていう感じで悪くない感じにはなってる

というか問題は組込される側じゃね？
試しにinception_resnet_v2で分類させてみたんだけど、
学習済みモデルのロードだけでメモリ4.5G食う
RaspberryPiとかでどうやって運用するんだろう
でかいスワップ使ってSSDでも遅いだろうし・・・

2019/02/26(火) 11:59:28.32

RaspberryPiは推論でも無理では

2019/02/26(火) 13:03:41.22

軽いはずだけど

2019/02/26(火) 13:19:26.30

>>913
ありがとうございます
短くまとまってるので是非参考にさせていただきます
kerasの関数や使い方も合わせて調べてみます

あと、すごく初歩的な質問なのですがリンク先のコードを軽くみたところ出力層が2クラス分類問題なのに1つになってるのが気になります
良品、不良品とふたつの出力層が必要ではないのでしょうか？

2019/02/26(火) 15:45:31.82

>>917
二値分類の問題は出力は一つでOK
例えば不良品にラベルを0、良品にラベルを1と付けたとする
活性化関数にSigmoidを使うと、入力した画像が0なのか1なのかを確率で返してくれる
0.5付近なら判別できていない

もし二つの出力でやりたいなら活性化関数にSoftmaxを使う
こちらは他クラス分類に使用する
良品レベルを5段階に分けて学習させるような場合に使う

2019/02/26(火) 20:43:24.25

>>871
すみません、そのページを読んでみたのですが、まだ理解できません。

a に添字 b を下付きしたものを a_b と表すとして、
state-value function v_π(s) = E_π [G_t | S_t = s] を私は次のように式変形しました。

v_π(s) = E_π[R_(t+1) + γG_(t+1) | S_t = s]
v_π(s) = E_π[R_(t+1) | S_t = s] + E_π[γG_(t+1) | S_t = s]

私が分からないのは第2項の期待値の計算です。

E_π[γG_(t+1) | S_t = s] = Σ_a π(a|s) Σ_s'r p(sr', r|s, a) (γG_(t+1))

このように展開できると思うのですが違いますか？

2019/02/27(水) 03:08:09.73

chainerを使ってたけど
tensorflowを使ったみようと思ってインストールしてみたら、
変なエラーばかり出てなかなか動かなかったけど、
MINSTがやっと実行できた。
うれしい！

2019/02/27(水) 03:24:04.07

>>920
おめでとう
慣れるまで、環境構築ほんま大変だよな

2019/02/27(水) 06:50:22.32

>>910 >参考にされた資料や記事などは
http://aidiary.hatenablog.com/entry/20170108/1483876657
(犬|猫)と花x17の練習問題はそのまま使える。

ここでやってるのはFrancois の本そのもの　本には
5%くらい精度落ちるけどGPUなしで高速に学習する方法も記載あり。
https://www.amazon.co.jp/Deep-Learning-Python-Francois-Chollet/dp/1617294438

2019/02/27(水) 07:43:37.69

eagerとkerasてどうちがうの？

2019/02/27(水) 11:05:10.77

>>921
ありがとうございます！
動くまでいろいろと試行錯誤していました。
バージョンや環境に依存する部分も大きいのでしょうか？

僕が結局のところうまくいったのは以下のサイトの、
仮想環境を作ってからインストールするという手順です。

https://qiita.com/dddmm/items/9e4d9e08a071cfa4be83

このサイトの下に書いてある、

＞　「(keras_work) conda install jupyter」でインストールして、
＞　カーネルを再登録して
＞　「(keras_work) ipython kernel install --user 、、、」、
＞　jupyter-notebookを立ち上げなおしたら、正常に動作しました。

というのも実行したら、動作しました。
ここではkeras_workという名前になってますが、まだkerasはインストールして
いないのですが、仮想環境を作らなければ動作しなかった
ということは、何か僕の環境が悪かったのだと思います。

まあ、とりあえずtensorflowが動くようになりましたので、
いろいろサンプルを探して動かしながら、使い方を学びたいと思います。

2019/02/27(水) 12:18:00.05

脳科学が明らかにする
「あなたの隣のサイコパス」

ありえないようなウソをつき、常人には考えられない不正を働いても、平然としている。
ウソが完全に暴かれ、衆目に晒されても、全く恥じるそぶりさえ見せず、堂々としている。
それどころか、「自分は不当に非難されている被害者」
「悲劇の渦中にあるヒロイン」であるかのように振る舞いさえする。

残虐な殺人や悪辣な詐欺事件をおかしたにもかかわらず、まったく反省の色を見せない。
そればかりか、自己の正当性を主張する手記などを世間に公表する。

外見は魅力的で社交的。トークやプレゼンテーションも立て板に水で、抜群に面白い。
だが、関わった人はみな騙され、不幸のどん底に突き落とされる。
性的に奔放であるため、色恋沙汰のトラブルも絶えない。

経歴を詐称する。過去に語った内容とまるで違うことを平気で主張する。
矛盾を指摘されても「断じてそんなことは言っていません」と涼しい顔で言い張る。

(略)
見過ごせないのは、この種の人間を擁護する人が少なくないことです。
(略)
時には「信者」であるかのような崇敬を示す人までいます。
そうした人たちは、きっと知らないのでしょう。
彼／彼女らが、高い確率で「サイコパス」だということを。
(脳科学者・中野信子さん)

AI的にはこういう子が育つ可能性はあるの？

●添とか●エモンとか百合子とかちょんとか

2019/02/27(水) 12:22:19.72

>>908
人事採用で応募して来た人間が不良かどうか判定したい

2019/02/27(水) 12:49:52.22

>>926
Amazonがそれやったけど女性差別するように学習して辞めたよね

2019/02/27(水) 13:01:10.50

機械学習はわからんうちは面白そうで飛びつくけど、しばらく勉強したら飽きた
進歩早いし専門家じゃないとついていけない世界ねこれ

2019/02/27(水) 13:30:32.39

既存ツール、ソフトを利用する立場なら専門家の議論についてかなくていい

2019/02/27(水) 14:37:13.41

SVMを理解する為にlibSVMで作ってみたんだけど、
動作を確認する為に学習データとサンプルデータ（とパラメータ）が載ってるサイトって無いですか？

2019/02/27(水) 14:40:17.34

P言語しか使えないプログラマって
CPUがどうやって動いているか知らないですもん。

知らなくても仕事でちゃんとプログラム作ってますから、
データ分析も全部知る必要ないと思います。

知らないけどちゃんと使えてる・動かしている、
というのは世の中にいくらでもありますよね。

2019/02/27(水) 14:42:40.83

自分がどうやって生まれてきたかも分からん

**デフォルトの名無しさん** (JP 0H7a-dRuN) · 2019/02/27(水) 18:24:24.61

ダウト

2019/02/27(水) 18:25:28.54

そろそろ、被写体を自動で認識して綺麗に切り抜いてくれる機能が
フォトショに実装されても良い頃なのに、AIを使ってるとは名ばかりの中途半端

2019/02/27(水) 18:41:06.02

現状、精度や柔軟性で人間超えるのはまだ難しい。
機能しているのは効率重視なタスク。

2019/02/27(水) 18:58:27.31

>>927
教師データに性別が入っていて、男性の方が採用率が高かったという
やるだけ無駄な結果だったんだっけ？

2019/02/27(水) 19:00:17.91

https://www.gizmodo.jp/2018/10/amazon-recruitment-ai-aborted-due-to-gender-bias.html

2019/02/27(水) 20:57:49.46

https://towardsdatascience.com/aifortrading-2edd6fac689d
機械学習で株価予想を徹底的にやり込んだ例

2019/02/27(水) 21:38:17.95

>>938
あまりにもフィットしすぎていて、自身の経験上では予測対象のデータを学習に読み込んでいるレベルだ
本当だとしたら凄いな

2019/02/27(水) 21:57:13.50

>>938
ガチ勢は楽しそうだけれど
実際大手証券はもっとガチ勢なんだろうなと思うとやって競馬、本当にやるなら競輪競艇くらいのほうが夢がありそうだよね

2019/02/27(水) 22:08:34.78

ていうかpythonはいつまでGILに縛られてるんだよ
GILなんとかしないと実際問題まともなプログラミング言語と言えない
numpyが優秀なだけで他はぱっとしない

2019/02/27(水) 23:50:14.09

>>938
これはよくある「前日に近い値を出力しているだけ」では？

2019/02/28(木) 00:08:09.21

株予測にMSEを使うとやらかしやすいミス

2019/02/28(木) 00:10:37.70

数値データの変動だけからの予測は限度がありそうだな
社会情勢やニュースも考慮できたら精度が上がりそう

2019/02/28(木) 00:19:05.22

株価だけだと
テクニカル分析を信じる人の割合+それに乗っかる人の割合
くらいでしか当たらないからね

2019/02/28(木) 01:14:47.99

>>868
重み更新を行わないステップがあると、lossとかのmetricsが全部nanになる
強化学習でフレームスキップをした時によくハマってた

そうじゃなかったら、loss functionの使い方を根本的に間違えてるとか？

2019/02/28(木) 09:07:56.62

>>938
須山敦志 Suyama Atsushi? @sammy_suyama
不確実性を無視して予測を「精度良く当てにいく」というのはあまり有用じゃないです。例えば株価の上昇をピンポイントで当てにいくよりも、「暴落しないこと」が言えた方がずっと有用。
https://twitter.com/sammy_suyama/status/1090399628841803778
https://twitter.com/5chan_nel (5ch newer account)

2019/02/28(木) 09:42:57.67

>>947
ポートフォリオ理論、30年以上前のクォンツの時代から、
本来はヘッジのために考えられ、その有効性が盛んに叫ばれても
みなさん運用（儲け）側にしか走らなかった。

分ってはいるが、そうやって使ってくれないという悩み。
焼き直しにすぎないのですが、価値が無いわけじゃないんだよな。

2019/02/28(木) 09:52:42.58

>>938
国内でも機械学習を用いて、自己資金で運用というのが
15年前から3年近く前まで、運用実績をWebサイトでずっと公開されて方がいた。

実際に相当に資産を増やされていたが、本業ではないので株についてのアルゴリズム
の見直しは本格的にされていなかったので、現在（２年か３年前から）は、為替に
主力を移して良いパフォーマンスをだされてますよ。

昔から興味のある方々にとっては有名なサイトでした。サイトは閉じられましたが
現在もPC７台使って自動運用中です。
ちなみに、リアルタイム取引ではないです。

2019/02/28(木) 11:08:48.92

ヘッジに使わていないとかどこの世界の人なのか
ヘッジャーとスペキュレーターとアービトラージャーは業務が別なだけ

2019/02/28(木) 12:28:54.67

米証券会社大手ゴールドマン・サックスには500名の
トレーダーが在籍していたが、AIトレードの普及で
今ではAIエンジニア3名に置き換わってしまったのは
有名な話ですよね。

先日、恩師によばれて大学のゼミ生たちに
プログラミングを教えに行ったら、
全員が機械学習で株価を予想しててマジで笑いましたｗ

2019/02/28(木) 12:36:40.24

>>951
どんなプログラミングを教えるんだ？
言語は？
機械学習とは具体的にどんな？

2019/02/28(木) 12:42:47.63

>>948
みんながそれ使うとゼロサムになるって証明されちゃったとか？

2019/02/28(木) 12:44:05.80

>>947
暴落しない事を当てるなんて不可能だろ
エンジニア風情は何でこうも市場の効率性に無知で自信過剰なんだ

>>951
置き換わってるのは内外問わず「執行」の部分
実際の投資戦略では線形回帰分析が主流どころかほぼ全て

2019/02/28(木) 12:49:06.81

>>952
Pythonで基礎的なアルゴリズムの実装を教えに行きました。
まあ、初心者向きですね。

学生連中が株価予測に使ってるのは、
主にSVR、ランダムフォレスト、ディープラーニング
などですけど、線形のSEMを使ってる学生もいました。

2019/02/28(木) 12:51:18.51

>>952
あなたはどんな言語でどういう方法で
予測をやってるんですか？

2019/02/28(木) 12:51:46.65

金儲けはいい動機になるんだなあ（笑）

2019/02/28(木) 12:53:11.33

>>955
基礎的なアルゴリズムとはどんな？
少なくとも学生が株価予想に使ってるアルゴリズムよりは高度なんだよな？

2019/02/28(木) 12:55:46.31

>>956
やってないよｗｗ

2019/02/28(木) 12:58:54.53

>>955
学生の株価予想はどれくらいの確率であたるの？
学生のほうがプロと比べて確率低いの？

2019/02/28(木) 13:24:35.42

>>958
全く違います。
基礎を教えて行っただけです。

で、基礎を教えに行ってみて
学生と話をしたら
株価の予想にのめりこんでる奴らばかりだった、
という話です。

それを全部説明すると話が長くなるので
なにをどのように教えたのかははしょっただけです。

株価の予想をやってないなら
聞かないでくださいよ。
馬鹿なんですか？

2019/02/28(木) 13:25:40.58

>>958
質問ばかりで何も役に立つ話がないので
聞きますが、どういう機械学習をどういう会社で何年ぐらい
やってるんですか？
細かく説明してください。

まさかただの馬鹿院生ですか？

2019/02/28(木) 13:28:47.76

>>961
自分の思い込みを前提に質問するのはやめような
まずは機械学習やっていますか？ときくのが当たり前だろ

2019/02/28(木) 13:40:08.80

東京大学理学部数学科に入りたい。

2019/02/28(木) 14:11:35.73

>>962
ここはにわかしかいないと思う

と言ってる俺も基礎知識しか無いし、
最近はgithubから落としてきてぐるぐる回してるだけだ
とてもじゃないけど追いつけない

2019/02/28(木) 14:13:07.14

>>963
その前提は止めて欲しい
確かにレベルは低いけど、機械学習をやってない奴がいる前提はさすがに悲しすぎる

2019/02/28(木) 14:33:03.75

A株取引はAIがやるわけだからやるひつようないだろ
個人で作るにしても大企業の天才が作ったソフトに勝てるわけないわけだし

2019/02/28(木) 14:37:43.29

勝てる可能性はあるんだけどね

2019/02/28(木) 14:53:16.62

負け組思想は嫌だねぇ

2019/02/28(木) 14:58:17.08

AIのソフトって売ってるんじゃないの？
それを買えば作るより簡単で正確だとおもうんだけど

2019/02/28(木) 15:00:46.46

そもそも株取引は証券会社と個人投資家で得られる情報の速度に違いがあるから短期勝負じゃ勝てない

2019/02/28(木) 15:11:30.76

>>970
今はどんどん新しい手法が出てきては消えているから、
売ってる物は数世代前の物だよ

>>971
応答速度でも証券会社と個人は比較にならないんだ
個人で短期勝負って

2019/02/28(木) 15:11:33.31

AIでやると幾ら儲かるの？

2019/02/28(木) 15:15:49.79

それ以外に、個人では手数料の問題が大きんですよ。
株にしても為替にしても。

2019/02/28(木) 15:18:15.78

>>950
業務分担の話ではなく、多くの機関投資家の興味が儲けに偏っているということ。
業務的に両面あるのは当たり前の話。

2019/02/28(木) 15:27:01.93

>>951
ゴールドマン４Ｑのトレーディング損失計上日数、約７年ぶり多さ
https://www.bloomberg.co.jp/news/articles/2019-02-26/PNJK2L6JIJUR01

悪化してるがな

2019/02/28(木) 15:31:52.63

>>973
手数料取られるから儲からない

2019/02/28(木) 15:39:48.77

>>977
実際に取引している人だと、必ずその問題が前面に出てくる

2019/02/28(木) 15:48:51.72

機械学習だのデータマイニングだのは所詮、純粋数学ができなかった落ちこぼれがやる分野でしかない。
もっと言うと、計算機科学自体が、純粋数学ができなかった落ちこぼれのやる分野だなｗ
真の天才は純粋数学、そしてその中で最も難しいと言われている数論幾何学を勉強する。
俺は物心ついた時から平均を遥かに下回るぐらいの超絶ド底辺クラスの頭の悪さだったけど、
なんとかして頑張って猛烈に勉強しまくって東京大学理学部数学科に入り、
そして、数論幾何学を勉強し、優越感に浸りたい。
ちなみに高校も超絶ド底辺高校出身です。

2019/02/28(木) 16:10:08.37

>>979
いいんじゃない、頑張って！
一つだけ言えば、人を気にしないで生きてください。

2019/02/28(木) 16:14:01.38

>>971
中期長期なら勝てるの？

2019/02/28(木) 16:14:08.34

http://www.kurims.kyoto-u.ac.jp/~motizuki/papers-japanese.html

超絶天才数学者、望月新一氏の論文。

これはヤバイな・・・・。

2019/02/28(木) 16:22:48.59

すごいな宇宙の辺境理論

2019/02/28(木) 16:25:16.53

思索というか妄想していて疑問に思ったことがあるのですが、
無限大の破壊力を誇る超強力な武器があったとして、
無限大の空間に対してその武器を発動したら、どうなるのでしょうか？
無限大と無限大のぶつかり合いですが、結果はどうなりますか？

2019/02/28(木) 16:29:31.19

濃度は？

2019/02/28(木) 16:29:52.54

結果として、宗教家が生まれてきそうだ

2019/02/28(木) 16:31:31.12

ヒマラヤ（ニートの中卒おっさん）

2019/02/28(木) 16:32:57.99

>>985
どういうこと？

2019/02/28(木) 16:37:19.54

>>988
煽るならせめてそれぐらいの知識は持ってないと

2019/02/28(木) 16:37:22.97

>>988
無限と無限を比較するなら濃度の大小を明らかにしないと

2019/02/28(木) 16:38:48.44

>>990
じゃあ、無限の濃度が同じだとしたら結果はどうなりますか？

2019/02/28(木) 17:27:12.74

無限大 + 無限大 = 無限大
無限大 - 無限大 = 不可能

2019/02/28(木) 17:30:51.82

スレチ
数学板で聞いた方がいい

2019/02/28(木) 17:50:52.11

>>992
不可能だと、具体的にどんな感じになるのでしょうか？

**デフォルトの名無しさん** (JP 0H3b-MRyn) · 2019/02/28(木) 18:04:52.94

望月のabc予想、微妙じゃん

2019/02/28(木) 18:54:12.13

>>994 予想がつかない、宇宙の破滅かな？
無の世界が訪れるのか、新たな宇宙が作られるのかは、その時の環境次第では。

2019/02/28(木) 18:57:16.10

>>996
濃度が同じなのに宇宙が破滅して無の世界が訪れるの？
それじゃあ武器が勝ったってことになるじゃん。

2019/02/28(木) 19:35:17.92

>>951
勘違いも甚だしい
正しくは、「ゴールドマンサックス、600名のトレーダーを200名のエンジニアで置換」です
https://www.technologyreview.com/s/603431/as-goldman-embraces-automation-even-the-masters-of-the-universe-are-threatened/

2019/02/28(木) 19:56:59.03

>>997 武器というのは普通はプラスに作用するのが普通だよな。

2019/02/28(木) 19:57:31.99

あと、ゴールドマンサックスのような投資銀行では、普通、確率予想によりリスク計算を厳格に
行なっているので不確実性には投資しない。投資が実行となるのは100%近い、収益性が予測さ
れる場合のみ。この場合、100%の収益性が保証されるプログラムトレーディングとは、
high-frequency tradingという手法をいう。HFTでもっとも一般的な手法は、市場に影響を与える
ニュースをマイクロセカンドの単位で早く入手して、その確実な情報に基づき、他者に先駆けて
トレードを実行してしまうというものとなる。Bloombergは、顧客に対して専用回線で、オープン
アクセスの自社ニュースサイトよりもコンマ数秒の単位で情報を先出しすることをやっており、
HFTを実装している業者は、こうしたニュースソースを利用して、例えば雇用統計の中身がが市
場予想と大きく異なる場合には、予想と反対のトレードを自動実行して利益を出すようなことを
やっている。例えば日本市場の場合、日経平均は、日経新聞社が5秒間隔で更新している。この場合、
東証の直結回線から取引データ利用して日経平均をリアルタイムで算出することができれば、
最大５秒先の未来の日経平均の情報を入手できることとなり、５秒先の未来の日経平均の変化率が
大きな場合は、大きな利益を得られることとなる。ゴールドマンでやってることはこういうこと。