【統計分析】機械学習・データマイニング26

■ このスレッドは過去ログ倉庫に格納されています
2019/09/15(日) 09:23:06.34ID:bjsiNRs40

機械学習とデータマイニングについて語れ若人

*機械学習に意識・知能は存在しません。
人の意識に触れたい方はスレ違いです

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
Machine Learningを用いた論文一覧2018
https://shiropen.com/seamless/machine-learning/2018
2017年のディープラーニング論文100選
https://qiita.com/sakaiakira/items/f225b670bea6d851c7ea
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング23
https://mevius.5ch.net/test/read.cgi/tech/1551352040/
-
【統計分析】機械学習・データマイニング25
https://mevius.5ch.net/test/read.cgi/tech/1561568018/

【統計分析】機械学習・データマイニング24
https://mevius.5ch.net/test/read.cgi/tech/1556674785/
-
VIPQ2_EXTDAT: checked:vvvvvv:1000:512:----: EXT was configured
VIPQ2_EXTDAT: checked:vvvvvv:1000:512:: EXT was configured
2019/12/09(月) 13:55:54.49ID:scocuTx70
>>681
保険会社かなんかが姓名ランキングしてるから
まずは使える文字からランダムして
よくある苗字や名前になってたら再抽選
2019/12/09(月) 15:05:03.48ID:xDp47k0Pa
ディープなことするよりマルコフ連鎖とかでやった方が良さそうだけどな
684デフォルトの名無しさん (アウウィフ FF79-MVf8 [106.171.79.171])
垢版 |
2019/12/09(月) 15:14:40.70ID:RLwtKsqpF
条件後出しは失格
685デフォルトの名無しさん (ワッチョイ bd54-8zr5 [180.235.0.69])
垢版 |
2019/12/09(月) 16:25:34.13ID:HdYgf83V0
ああ、同人誌みたいなライトノベルみたいなどうしようもないやつに使いたいのね
乱数でいいんじゃね?
2019/12/09(月) 19:24:47.20ID:QTsW6dvXa
ランダムな個人情報を生成するプログラムなら既にあるが
テストとかに使うらしい
2019/12/09(月) 21:39:53.12ID:w/kMOH0C0
人名ジェネレーターで良くない?
辞書リストと乱数で成り立っていてAI不要な
688デフォルトの名無しさん (ワッチョイ 5aad-CqlS [27.139.41.170])
垢版 |
2019/12/10(火) 04:20:23.19ID:0gRjlhkw0
デスノートのいじめが発生しないようにって配慮スゲーって思ったな
689デフォルトの名無しさん (アウウィフ FF79-MVf8 [106.171.67.227])
垢版 |
2019/12/10(火) 14:05:49.73ID:48kVELqAF
阿部進次郎
2019/12/11(水) 19:37:08.57ID:LCchQiSlD
ご質問なのですが、機械学習の回帰問題において、教師信号が特定の範囲内にある時の重みを重くするような損失関数はありますでしょうか?

私が解きたい問題においては、教師信号の値が0~1の間の値を取るように基準化しているのですが、
例えば、RMSEを下記のようにカスタマイズした損失関数を使用したいのです。

False Positive:学習器の出力は0〜0.2の範囲だが、教師信号は0.2より大きい or
学習器の出力は0.8〜1の範囲だが、教師信号は0.8未満

False Negative:教師信号の出力は0〜0.2の範囲だが、学習器の出力は0.2より大きい or
教師信号は0.8〜1の範囲だが、学習器の出力は0.8未満  

とTrue negativeとFalse Negativeの場合にのみ損失関数を計算するか、重みを大きくした損失関数を使いたいのです。

もしご存じでしたら、この損失関数を使用可能な学習器やライブラリなどを教えていただけますでしょうか。
ライブラリなどが無くても最悪論文などがあればそれでもかまいません。何卒ご教示をお願いいたします。
691デフォルトの名無しさん (ワッチョイ bd54-8zr5 [180.235.0.69])
垢版 |
2019/12/11(水) 21:41:26.98ID:DwgG6llj0
わかんない
2019/12/11(水) 21:52:30.04ID:10/84Yqu0
知らない
2019/12/11(水) 22:27:12.29ID:ARdMYJJF0
andで繋げたら?
2019/12/11(水) 22:52:42.17ID:KfdgnhFCa
損失関数自分で定義すればいいじゃん
2019/12/12(木) 00:35:12.72ID:XDEaLtEed
>>690
まず教師信号とはなに?ベクトル?時系列?
>教師信号が特定の範囲内にあるとき…
ヘビサイト関数(ステップ関数)の重ね合わせで表現可能

>RMSE
二乗平均?(RMS)
よくわからん。一般的でない。

>false positive, false negative…
応答だけ書かれてもわからん。±で4パターンあるだけ?
2019/12/12(木) 06:56:14.26ID:HzXPCxE7r
>>690
fpに分類をよせたいということであれば重み付けカッパ係数で評価する方法はある。
ttps://qiita.com/tand826/items/4d1fb2045f2b48d21b7d

求めているものと全くちがうかも
697デフォルトの名無しさん (ワッチョイ 5b54-OFkf [180.235.0.69])
垢版 |
2019/12/12(木) 07:02:30.85ID:x0loQ0xU0
理解してない人が繰り出す小手先の改善ほど効果のないものはない
2019/12/12(木) 07:37:25.30ID:xvtH/KsFd
>>695
RMSEは一般的だけど。。

>>690
やり方は主に2通りある
一つはサンプルをいじる方法、もう一つは関数をいじる方法だけどもっと詳しく聞きたい?
2019/12/12(木) 08:02:27.31ID:mOtpkcnLa
うんこレベルに無知なくせに回答しようとするゴミって
どういうメンタルなんだろうなw
機械学習は分かるけどウンコの考えは謎だわ
2019/12/12(木) 09:22:48.99ID:rtEMPQR+d
文句いうだけのうんこよりマシって程度
2019/12/12(木) 12:56:19.08ID:qy4ltjlBD
皆さん、お忙しい中返信をありがとうございます。

>>698
知りたいです。是非教えてください。
>一つはサンプルをいじる方法、もう一つは関数をいじる方法だけどもっと詳しく聞きたい?
2019/12/12(木) 17:43:51.02ID:xvtH/KsFd
>>701
サンプルをいじる方は2パターンあって、重みを付けたい範囲のデータを水増しして増やすか、逆に重みを付けたくない方のデータを間引くかのどちらかを行う

関数をいじる方は、使ってるライブラリのオプションにweightみたいなのがたぶんあるはず。無ければ自分で実装しかないんじゃないかな
2019/12/12(木) 21:49:18.95ID:x0loQ0xU0
違う話になってない?
2019/12/12(木) 22:07:40.49ID:SSYYfvrk0
損失関数を変えるってより真の目的は特定のデータ範囲だけ重み付けしたいということだと解釈したけど、違ってたらすまん
2019/12/12(木) 23:49:42.64ID:2XjPPOkCd
>>702はあほか
ただステップ関数だけやん
2019/12/12(木) 23:50:24.59ID:2XjPPOkCd
訂正
>>702はあほか
ただステップ関数かけるだけやん
2019/12/12(木) 23:52:33.17ID:2XjPPOkCd
>>702はうんこにも負けるお馬鹿さん
2019/12/12(木) 23:58:44.94ID:2XjPPOkCd
>>702の方法を詳しく聞きたいです。
どのレベルのものが出てくるのかな?
2019/12/13(金) 00:03:20.51ID:YzIzcvdhd
>>698
>やり方は主に2通りある
一つはサンプルをいじる方法、もう一つは関数をいじる方法だけどもっと詳しく聞きたい?

聞きたいです。
どのくらい短いコードになりますか?
2019/12/13(金) 00:07:11.37ID:ztjeN6RTD
>>702
ありがとうございます。私が阿保でした…。色々と難しいことを考えていましたが、普通に分類問題における不均衡データの扱いと同じように考えれば良いのですね…。
2019/12/13(金) 00:10:21.56ID:XxZjyVfOd
>>698いわく方法は2つあるらしいけど、僕ちん一番始めに思い付かなかったな。長過ぎて。
2019/12/13(金) 00:21:47.33ID:XxZjyVfOd
>>698のどや顔のわりに出題者の意図を組んだ回答になってなくて笑うわ
2019/12/13(金) 00:28:36.82ID:XxZjyVfOd
>>699>>695の始め四行を理解できましたか?

おそらく意図に沿った最適解ですよ?
2019/12/13(金) 00:52:32.77ID:XxZjyVfOd
ところでさ、>>690>>695の最後の一行だけで解決できたって認識はある?
2019/12/13(金) 08:26:43.93ID:4f9XcAird
>>710
ID変わっちゃってるけど

>>698は俺で、>>702で回答したつもり
そうそう不均衡データ知ってるなら話は早い。それと同じに考えればいいんじゃないかな
2019/12/13(金) 08:47:13.93ID:zOMzCfb1a
オライリーのPythonによるデータ分析とデータサイエンスハンドブックってどっちがおすすめですかね?
717デフォルトの名無しさん (アウウィフ FFc7-EbeN [106.171.69.81])
垢版 |
2019/12/13(金) 11:10:40.03ID:V90d9jYdF
前者
2019/12/15(日) 11:25:39.35ID:NsMHdX+Qd
オライリー本の機械学習本大杉
俺にも初心者向けのお勧め教えてほすぃ
趣味でやる程度で、プログラムは問題なくて数学はソコソコ程度でやんす
719デフォルトの名無しさん (ワッチョイ 5b54-OFkf [180.235.0.69])
垢版 |
2019/12/15(日) 11:27:48.03ID:qAhsyicK0
どうせ無理
2019/12/15(日) 16:36:37.82ID:IJ9lyMvCr
夢見る機械学習
夢見る深層学習

あたり
721デフォルトの名無しさん (ワントンキン MM86-OFkf [123.216.161.18])
垢版 |
2019/12/17(火) 17:57:23.97ID:IOLSzPnMM
neuripsは、にゅうりっぷす、でいいの?
2019/12/17(火) 21:22:33.32ID:TP04XND70
夢見るって何だよw
2019/12/18(水) 08:37:06.46ID:AGv/bbi+0
アンドロイドは電気羊の夢を見るか? フィリップKディック
2019/12/19(木) 16:18:27.57ID:687/ZJ6rM
>>723
この板では常識みたいな本のタイトルだよな
725デフォルトの名無しさん (ワントンキン MMab-BqQa [123.216.161.18])
垢版 |
2019/12/19(木) 19:13:19.10ID:7bTJNhmPM
攻殻機動隊は?
2019/12/19(木) 20:08:23.64ID:Gv7/QyPZ0
>>725
アニメという時点でダメですね、紙の本を読みなよ
727デフォルトの名無しさん (ワッチョイ 2154-BqQa [180.235.0.69])
垢版 |
2019/12/19(木) 20:36:41.48ID:2pi3DA5F0
コミックです。。。
2019/12/22(日) 12:35:04.23ID:Ens8Pa2w0
pythonの入門書を終えてtensorFlowとかkerasとか学びたいんだけど、
よい入門書教えろください。 orz
2019/12/22(日) 13:30:25.72ID:AF24n/5l0
>>728
いきなり深層学習フレームワーク触るより深層学習の基礎勉強しなさいよ
つ ゼロから始める〜
2019/12/22(日) 13:47:20.09ID:QqTXpvNUM
せんせー、pythonの文法知ってるだけの人がいきなりゼロからはじめるやって分かるんですかー
2019/12/22(日) 13:50:53.01ID:AF24n/5l0
tensorflow触ったって理屈何も分からんでしょ
2019/12/22(日) 14:19:38.73ID:sLfMPx200
tensorflowに触ってごらん、AIだよ
2019/12/22(日) 14:24:41.20ID:Ens8Pa2w0
>>729
説明不足でした。
ニューラルネットで修士号とってますが、
全然関係ない分野で働いてたので、
プログラムのリハビリ状態。

統計学と昔の機械学習は理解しているので、
新しいトピックと実際の動かし方を学びたい。
2019/12/22(日) 14:32:55.35ID:fEmGBg4L0
統計学は応用数学だが
機械学習に数学はいらない
2019/12/22(日) 14:38:25.43ID:D2xqHNpK0
>>734がイイ(・∀・)こといった!
2019/12/22(日) 14:54:20.51ID:jKm3tCWya
何をどう調べてどこまで身につければ十分なのかを自力で把握できなければダメ
何も知らない中学生・高校生ならまだしも、大学出た社会人が「何から学べばいいか?」とか聞くこと自体がアウト
2019/12/22(日) 15:02:08.75ID:Ens8Pa2w0
いや、Tensorflowの全体像を知るための定番の入門書を知りたかっただけなんですが・・・。
2019/12/22(日) 15:13:24.42ID:MAO/zmGQ0
>>733
「scikit-learnとTensorflowによる実践機械学習」などどう?
2019/12/22(日) 15:40:47.34ID:tyzf2bxBa
>>737
TensorFlow2.0やりたいなら本はほとんどない
これから2.0しか使わなくなるから今ある1.0の本を読むべきかと言うと微妙
2019/12/22(日) 15:55:54.03ID:Ens8Pa2w0
>>738
ありがとうございます。チェックしてみます。
2019/12/22(日) 15:58:04.45ID:Ens8Pa2w0
>>739
なるほど。
現在2.0を学ぶんなら洋書ということになるのでしょうか?
ひょっとして、洋書もまだ出てなくて、ネットで情報を漁るしかないのかな・・・。
2019/12/22(日) 16:15:13.33ID:kqUBoQ4ga
pytorch開発入門が良い
2019/12/22(日) 16:35:38.25ID:Ens8Pa2w0
>>742
pytorchなんてものもあるんですね・・・。

Scikit-learn
Tensorflow
dlib
PyTorch

どれから手をつけるのがいいんでしょう?
2019/12/22(日) 16:36:54.74ID:Ens8Pa2w0
修士のときはアルゴリズム系の研究をしていて、
あの頃は、みんな一からC言語でコード書いていたから、
完全に浦島太郎状態だなぁ。
2019/12/22(日) 18:28:11.78ID:AF24n/5l0
>>743
sklearnでいいんじゃない?
仕事内容にもよるけど
2019/12/22(日) 18:45:14.82ID:Ens8Pa2w0
>>745
入門書ではsklearn使ってましたね。
とりあえず直近の回帰分析とかレベルだとこれで十分なんですよね。

ただ、流行りのDeepLeariningとかも学んでみたいという欲が出ているのが抑えがたい。
2019/12/22(日) 21:16:41.90ID:tA8JsD2t0
使い物にならない頭の固い浦島太郎
2019/12/22(日) 22:11:05.54ID:Ens8Pa2w0
ライブラリ比較サイトで勉強してきました。
直近のしごとはsklearnで事足りそうだし、
Deep Learningとかの勉強はPytorch使ってみようかと思います。
Tensorflow+Kerasも気になるけど、Tensorflow2.0の情報が出てから勉強したほうが、
効率良さそうな気がしてきました。
2019/12/23(月) 00:31:24.07ID:Aom+GboU0
>>741
洋書もほとんどないと思うよ
公式のドキュメント読み込むのが良いと思う
750デフォルトの名無しさん (ワッチョイ 1302-4eo+ [27.81.114.231])
垢版 |
2019/12/23(月) 01:08:38.23ID:VfWxGDyD0
修士持ってて5ちゃんで入門書の情報収集かよ
てかネタだよな?
751デフォルトの名無しさん (ワッチョイ 2154-SJkM [180.235.0.69])
垢版 |
2019/12/23(月) 07:02:49.05ID:C376Wcca0
neural machine translationを試してるけど
ユーザー辞書を指定する方法が分からない

誰か教えて
752デフォルトの名無しさん (ワッチョイ c101-Rp4x [126.243.47.200])
垢版 |
2019/12/23(月) 07:57:44.83ID:OGRagDqQ0
print('Hello World')
2019/12/25(水) 20:19:54.82ID:1fTZ/ZaM0
>>748
普通にtensorflowやっとけ。
どうせ2.0でても1. 系統との違いみたいな説明しかされんから。
2019/12/25(水) 20:56:16.29ID:aaAP7ysf0
やるならkerasがいいよ
モデル構築部分はほぼkerasと同じ感じに書けるようになった
1.0の計算グラフはユーザーから意識することはなくなったし
それを覚えても意味はないと思う
755デフォルトの名無しさん (ワッチョイ 4f54-ieRt [180.235.0.69])
垢版 |
2019/12/29(日) 10:57:12.10ID:qpN3wIzL0
NICTはなぜオープンソースで公開しないんだろう

MSやGoogleやFacebookはGitHubにアカウントを持っていて
研究成果を公開しているのに

NICTもそれらのオープンソースを利用しているくせに公開しない
756デフォルトの名無しさん (ワッチョイ df10-YTym [153.131.102.129])
垢版 |
2019/12/29(日) 11:57:05.52ID:qLN9wlkm0
企業は収益を得る手段がほかにあるけど
研究機関は違うのも関係あるように思う
2019/12/29(日) 12:16:45.48ID:ji21HRv6M
NASAもジャンル違うけど公開してるし、税金投入してるなら国民に見せた方がいいはずだけど
日本の研究機関は遅れてるんかね
情報漏洩と公開範囲を定義して運用出来る頭脳はよ
2019/12/29(日) 13:53:29.86ID:TN/x0Ru2a
現代のIT企業は研究成果をオープンにすることで世界中からフィードバックを貰うことで超速で進化しているんだけど
日本の古典的大企業や研究機関は研究成果を隠すことで他と差別化できると思い込んでいる
GAFA躍進前の時代なら日本式もそれなりに良い方針だったかもしれないが
今の時代ならその隠した研究成果と同等かそれ以上のものがその内GAFAから生まれるだろうから無意味
研究機関がGAFAのようにオープンにした成果を利用した金儲けができないことが問題なのであれば
金儲けできるように日本のローカルルールを変更すればいいだけ
2019/12/29(日) 15:38:02.27ID:Dx5kC0NRM
研究機関はどうかは知らないけど少なくとも世界的に大学は公開してるしな
2019/12/29(日) 15:42:26.10ID:ji21HRv6M
横並びで公開しない暗黙のルールか忖度ありそうね
東大やら普通にイントラにgitlabサーバ建てたりしてた記憶
あの先生より上層部の意識がどうかやねえ
2019/12/29(日) 20:25:01.95ID:by75XqYfM
研究スピードがどうしても海外より劣るから、モノを公開しちゃうと置いてかれるんだよ。
日本の研究機関の風土の問題じゃなくて、研究以外もこなさなきゃいけない人達が合間を縫って研究するしかない
日本の科学技術に対する制度設計の問題。
2019/12/29(日) 20:42:28.27ID:BQX6608C0
国立の研究所が情報隠すのって
NHKが受信料で作った番組を子会社でDVDで商売してるようなもんだね
2019/12/29(日) 21:52:42.26ID:rpIpsCsdM
論文優先で手が廻らないってとこか
ソース公開も楽じゃないすな
2019/12/29(日) 23:28:34.15ID:XnQ2dClWa
論文で十分に公開していると思うが
ソースも欲しいのか
テクニカルレポートが欲しいのか?
765デフォルトの名無しさん (ワッチョイ 4f54-2tmj [180.235.0.69])
垢版 |
2019/12/29(日) 23:56:49.13ID:qpN3wIzL0
実装公開するのが世界標準
2019/12/30(月) 00:20:35.01ID:KJuDSflP0
Pythonライブラリの公開とかね
日本も大学はしてるとこあるし
767デフォルトの名無しさん (ワイーワ2 FFdf-v1fK [103.5.142.234])
垢版 |
2019/12/30(月) 12:19:39.72ID:WAqdspciF
>>762
国民の財産で私服を肥やすNHKはもっと悪質
2019/12/30(月) 12:43:25.39ID:cr0/Lsx50
公開出来るレベルのソース書けてるか、ライブラリ設計する能力があるか、も問題になりそうだけど、その辺も磨くと、ワイのような暇してる野良開発者もOSSなら協力出来るという特典はあるね
正直、研究系のITの仕事はパートタイムの30年前のサーバ管理みたいなのが多くて手伝えん
769デフォルトの名無しさん (ワイーワ2 FFdf-v1fK [103.5.142.234])
垢版 |
2019/12/30(月) 13:41:37.17ID:WAqdspciF
>>768
ほんそれ
https://megalodon.jp/2019-1225-1001-08/https://qiita.com:443/unico/items/76499d1e20042d929aa1
2019/12/30(月) 15:40:35.39ID:H7m/k27K0
研究者なら本来ソースが見やすいかとか関係ないからなあ
大事なのは数式の理論だし
日本人はごちゃごちゃどうでもいいことでなんくせつけるし
771デフォルトの名無しさん (ワッチョイ 77dd-2tmj [122.249.73.11])
垢版 |
2019/12/30(月) 15:54:00.51ID:iq/klXJD0
古い日本人の陰湿さだよな結局
2019/12/30(月) 16:12:34.46ID:EbY28/9f0
もう日本は終わりだよ
どうしようもない
773デフォルトの名無しさん (ワッチョイ 77dd-2tmj [122.249.73.11])
垢版 |
2019/12/30(月) 16:21:10.72ID:iq/klXJD0
産総研、JST、NICT、理研あたりは実装公開しろ
774デフォルトの名無しさん (オッペケ Sr1f-6GiO [126.255.57.149])
垢版 |
2019/12/30(月) 17:47:06.43ID:hVGBluVVr
>>770
んなこたーない
スパゲッティなコード書かれたら検証も追実験もやりにくくなる
機械学習の論文の再現性がないのは大きな問題になっている
2019/12/30(月) 17:47:44.68ID:8pRHoXtUa
研究報告の本質は再現性の有無を確認してもらうことだ
機械学習分野で言えば都合のいい学習データ、テストデータを使っていて実用上そんな状況あり得ないとか、ハイパーパラメータどう決めたのかとか疑おうと思えばいくらでも疑える点は出てくる
それを払拭する唯一の方法は実際に書いたソースそのものを出すこと
そのソースは最早論文の一部なのだから書いた人にしか分からない滅茶苦茶なものを公開して「公開したのだからこれでいいだろ」などというのはあり得ない
776デフォルトの名無しさん (ワッチョイ df10-YTym [153.131.102.129])
垢版 |
2019/12/30(月) 17:58:08.77ID:U5SCa4jH0
>>775
ソースコード出しても他のデータでの
汎化誤差が小さいかどうか判らなくね?
2019/12/30(月) 18:04:19.52ID:cr0/Lsx50
STAP細胞はありまーす
2019/12/30(月) 19:15:55.84ID:tmdGEa4Zd
stap細胞はありました。
2019/12/30(月) 22:05:07.58ID:lxiCJ2Yf0
企業もIT云々と言われた時代から金を掛けないし人を育てようともして無かったんで伸びないだろ
AIについてソフトバンクの孫が日本は遅れていると吠えてたけどまともな人材すら流れて来てないんじゃないか
企業にとっては若者をいかに騙して利益を吸い取るかっていう分野だろう
日本ではIT土方より土方の方が将来性ある
780デフォルトの名無しさん (ワッチョイ ef1d-uaPE [143.189.31.12])
垢版 |
2019/12/30(月) 23:34:55.91ID:HsGQHO6z0
stanとかPyMCって明らかに統計解析向きでシステムに組み込みづらいけど、
明らかにNNよりベイズの枠組みで変数間の関係を記述する方が優れているので、数学弱者でも自力でアルゴリズムを導出する事なく、kerasみたいにシステムに組み込めるようになる日は来るんだろうか。
2019/12/31(火) 03:09:29.79ID:nxNHwLJH0
研究者のコードは糞で見てられない。
R&D何年かやってたけど、もう関わりたくないなぁ
■ このスレッドは過去ログ倉庫に格納されています