【統計分析】機械学習・データマイニング22

■ このスレッドは過去ログ倉庫に格納されています
2019/01/13(日) 09:13:37.19ID:lpjZ4t830

機械学習とデータマイニングについて語れ若人


■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング21
https://mevius.5ch.net/test/read.cgi/tech/1541309676/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured
2019/02/13(水) 20:55:21.41ID:ik/h3+HJp
顔分類面白そうと思ってスポーツ選手の画像集めてみたところまでは良いけどopenCVの正面顔のカスケード分類器?使ってみたら400枚で4枚しか顔の識別してくれなくて驚いた
一枚一枚トリミングするわけにも行かないしどういうやり方が良いんだろう
2019/02/13(水) 21:07:48.83ID:cf7gk4kl0
>>629
HMDと合わせて神名器作ったら天下取れそう
2019/02/13(水) 21:08:43.48ID:lFTFiggD0
>>631
一枚一枚トリミングする
「python 顔 抜き出し」
辺りで検索すれば、それなりなものが出てくると思うけど、アカンか
2019/02/13(水) 21:08:52.21ID:AdED0sik0
>>631
そんなもんかもね
訓練データを自動収集したいなら動画がいいね
秒間30枚あるので1分でも頑張れる
2019/02/13(水) 21:24:40.21ID:NjYd28cS0
動画いいよね
スクレイピングでネット画像収集するより手っ取り早い
ただ小数の動画だと偏りが生じるから、いい感じの塩梅が必要
2019/02/13(水) 21:44:53.16ID:AdED0sik0
>>624
組み込み、DB、ネットワーク、サーバ周りは出来るけどフロントエンドは無理だなぁ
最近のJavaScript事情に全然ついて行けてない
機械学習はそれなりにやれる方だと思うけど、確かにDBやサーバの知識はほとんど使ってない
スキルセットが違いすぎるから別物と考えた方が良いね
2019/02/14(木) 09:53:57.10ID:n9WX//slp
>>631 です

>>633
>>634
その辺ひと通り検索して真似してみるんだけど処理の部分はopenCVで用意してる分類器使うからスクレイピングしてくる部分以外は大差ないように感じる…
記事で見かけるのはアイドルの写真が多いみたいだけど、グラビアとかも顔見せるのが仕事だから正面向いてるのが比較的多いのも良い点なのかもしれない(自分はスポーツ選手の画像でやって動きの中のものが多い)

あとはdetectMultiScaleのパラメータもminNeighborsとかminSizeとか指定出来るんだけど何も指定しない方が画像は多く検出してくれるからこの辺の設定も難しい上によく分からない…(検出出来るだけで顔以外のところがほとんど)
638デフォルトの名無しさん (アウアウイー Sa7b-4ITP)
垢版 |
2019/02/14(木) 14:11:14.03ID:k9Mf52PPa
>>633
>一枚一枚トリミングする

AI使ったらどうだ?
(--;
2019/02/14(木) 22:33:20.70ID:EZq+SINA0
皆さんどんなグラボ積んでますか?
購入検討の参考にさせて頂きたく

私は今はGTX650という化石のようなグラボです… 
趣味でMLを楽しむくらいなので下記が今のところ購入対象です。

GTX 1050ti
GTX 1060
GTX 1660(今月発売予定の1060後継機)
2019/02/14(木) 23:05:31.36ID:bI81JpB90
>>639
参考にならないかもしれないけど一応
GTX 1080
RTX 2080Ti
業務ではP100x2
2019/02/14(木) 23:32:50.64ID:EZq+SINA0
>>640
豪華で羨ましいですw
本格的にMLにハマったら上級機を買いたいです
2019/02/14(木) 23:57:01.36ID:eTgGDcKU0
>>640
1080 と 2080Ti の差はどんなものですか?
今1080を使ってるけど、
2080Ti の 11GBメモリと TensorCore に惹かれる・・・
2019/02/15(金) 00:14:27.89ID:6HYCgI4B0
>>639
GTX1070
以前は750辺り使ってたけど、仕事前や就寝前に回し始める→帰ってきたら完成、
のサイクルが楽しかった
回してる間は勉強できるしな

今はすぐに終わってしまうから超大変
2019/02/15(金) 00:22:19.91ID:5XOv+54+M
>>624
あたりめーだろ、AI以前、ITの基礎、飯の種だぞ
2019/02/15(金) 00:26:55.06ID:5XOv+54+M
>>628
確かに、たまに暇つぶしで
一攫千金山師の戯言を眺めに来ているだけだわw
646デフォルトの名無しさん (ワッチョイ ff82-C859)
垢版 |
2019/02/15(金) 07:13:05.59ID:BgDcDv3l0
DCGANって何の役に立つの?
2019/02/15(金) 08:42:13.39ID:ObSaJxT90
>>642
同じくTensorCoreにものすごい期待していたので、期待よりは低かったというのが正直なところ
ディープラーニングばかりでもないしね
2019/02/15(金) 10:18:32.53ID:6HYCgI4B0
>>646
GANはあくまで学習方法の一つ
簡単に超精度があがるから利用者が多い
2019/02/15(金) 10:36:15.91ID:QIlj//47p
みんなバックプロパゲーションの数式とか分かるの?
微分祭りで訳が分からない…
2019/02/15(金) 11:36:48.77ID:xMDmL+F0M
CNNの上位互換なGANは無いの?
学習データが少なくても学習成功するようなの
2019/02/15(金) 11:51:10.65ID:31zBapMna
>>646
自動運転の研究で用いられている例
道路画像から特徴を抽出してセグメンテーションするネットワークを学習するときに
道路画像から抽出した特徴から道路画像が実画像かシミュレータ画像か判定するDiscriminator入れて、抽出器(Generator)をそのadversarial lossで学習すれば
実画像とシミュレータ画像の違いによらない本質的な特徴を抽出することができる
結果的にシミュレータでの学習をそのまま実世界で利用することができる
652デフォルトの名無しさん (スフッ Sd7f-C859)
垢版 |
2019/02/15(金) 12:22:10.48ID:jnroZ227d
>>651
なるほど。
気になるのは本物と見分けがつかない実在しない人の顔や動物のリアルな画像生成ですけど
凄い技術だけど、人や動物の場合は何の役に立つの?

同時に恐ろしさも感じます。
写真に証拠能力はなくなるのかな?
653デフォルトの名無しさん (オッペケ Sr7b-u7O1)
垢版 |
2019/02/15(金) 16:54:25.53ID:4Ov+2rLwr
>>650
モデルの上位互換なアルゴリズムってどういう事?
2019/02/15(金) 18:16:11.96ID:oMATVSpgM
>>652
最近そんな記事が出てたような
2019/02/15(金) 18:31:16.88ID:6HYCgI4B0
アクセスするたびに架空の顔が出てくるサイト
https://thispersondoesnotexist.com/

>>652
AVの場合は女性の苦痛がなくなる
2019/02/15(金) 20:10:11.93ID:efwG2KLC0
>>647
そうなんですね・・・
ここは冷静になって、GCPあたりで TensorCore を試してから
考えることにします。
2019/02/15(金) 20:46:12.53ID:GTblsTOw0
>>649
余裕
2019/02/15(金) 22:54:09.02ID:6HYCgI4B0
TPUはコードい自体をTPUに最適化すれば猛烈な速さを誇るんだが
いかんせんそこまではなかなか
2019/02/16(土) 01:50:02.45ID:ZttmoLt30
>>650
CNNとGANは比較できるレイヤーにない
2019/02/16(土) 01:53:10.98ID:ZttmoLt30
>>649
よくわかってないけど、勾配さえわかれば確率的勾配降下法で局所最適に引っかかるだろうけど
一応何かしら解はでるだろうなぁ程度の理解
2019/02/16(土) 09:38:43.73ID:nM3/xq360
DRPAが2018年から二年でAIに二十億ドルの予算、もしかしたらAIブームは続くのかな
https://www.darpa.mil/work-with-us/ai-next-campaign
2019/02/16(土) 10:27:52.64ID:Zd6VVlQB0
>>649
微分の記号が連なっているのが分かりにくいって人はいるよね
はっきり言って難しいことは一つも言っていない
三次元で絵にするとアホみたいに簡単
数式でより汎用性高く記述すると本質と違うところで分からない人が発生する
アルファベットをロシア語アルファベットにしたら理解に時間がかかるようなもん
663デフォルトの名無しさん (ワッチョイ 877d-OU7K)
垢版 |
2019/02/16(土) 11:48:10.46ID:mrWW64c10
>>652
ドラマとか映画の制作で使われるようになるよ、
俳優使わずにだれでも簡単に生成できるようになる
664デフォルトの名無しさん (ワッチョイ df02-OU7K)
垢版 |
2019/02/16(土) 13:13:29.89ID:xP0jDbtx0
GANの応用で幾つかのドラえもんの道具が現実化するな

映画の登場人物をしずちゃんやジャイアンに変える秘密道具があったはず
2019/02/16(土) 13:26:10.07ID:ZttmoLt30
エロ動画の顔を挿げ替えるソフトあるよね
666デフォルトの名無しさん (ワッチョイ 877d-OU7K)
垢版 |
2019/02/16(土) 13:45:15.61ID:mrWW64c10
>>655
ベッキーが生成された・・・

https://i.imgur.com/RC026fl.jpg
2019/02/16(土) 14:11:30.68ID:OT08l6+a0
想像以上にベッキーだったw
668デフォルトの名無しさん (アウアウイー Sa7b-4ITP)
垢版 |
2019/02/16(土) 15:50:18.44ID:td/FtdQ5a
>>666  オーメンナンバーだな

>ベッキーが生成された・・・

納得。混ざり合うとそうなるかも
2019/02/16(土) 15:52:26.42ID:OT08l6+a0
お、両親の顔画像から子供の顔を生成するアプリあればうれんじゃね!?
→あった

「子供の顔 AI」で検索検索ぅ・・・
2019/02/16(土) 16:19:53.42ID:LE6s3aZE0
>>656
gcpでもawsでもまずはクラウドでいくらか使ってみるのが一番良いと思う。
変な環境依存問題で悩まされることも少ないし、本格的なグラボ買うくらいの金額使う前に
だいたい飽きたりもういいやってなるから。
2019/02/16(土) 17:46:28.12ID:Thrmbpuf0
保存されたモデルを読み込むのにメッチャ時間がかかっちゃう
コマンドラインでの使用だったらinput関数で次々渡していけるのですが、モデル読み込み済みの別プロセスに引数わたして、標準出力を得るにはどうすればいいでしょうか
2019/02/16(土) 18:19:01.98ID:5o+yejBW0
フォルダを自動監視してファイル追加をトリガーにするのはどうだろう。邪道だと思うけど。
2019/02/16(土) 20:27:20.72ID:GnrQKhDY0
>>669
昔、ゲーセンにそういうのあったよw
2019/02/16(土) 21:17:06.09ID:ZttmoLt30
GANで生成された画像がホントにデータセットにない画像なのかって気になるよね
たまたまミッキーマウスが生成されて著作権侵害で訴えられたりもあり得るのかなって
2019/02/17(日) 07:55:42.82ID:O/E0SKNM0
そもそも教師データとしての画像の著作権とか結構グレイだと思う。
676デフォルトの名無しさん (ササクッテロ Sp7b-sF/z)
垢版 |
2019/02/17(日) 08:27:46.53ID:QdZbpHpop
>>675
送信とかしなければ著作権を侵害していないと思うけどな

人間が著作物を見て学習するのは問題ないし

著作権のうちのどの権利を侵害している?
2019/02/17(日) 08:38:06.59ID:O/E0SKNM0
>>676
この辺の話かな。このページだと大丈夫という結論だけれど。
ttps://www.itmedia.co.jp/news/articles/1710/10/news040.html
2019/02/17(日) 10:17:29.43ID:IKEqbPl9a
>>677の法律のおかげで今年から日本国内で作業するなら勝手に著作物を使って学習データにしてOKとなった
対象は日本の著作物に限らないのでディズニーキャラを使ってもいい
2019/02/17(日) 11:39:56.46ID:7MWZQWrl0
>>675
ちいたん★みたいに著作者自身が著作権侵害で訴えられるケースもあるようです
2019/02/17(日) 11:43:10.54ID:Pkp5AUbX0
歌手が自分の歌を自分で歌うと著作権違反になるとか何とかあったような
そういや音楽以外の著作権もJASRAC管理なのか?
2019/02/17(日) 12:10:50.76ID:YuAjajdJ0
教師データを売る商売が成り立ちそうだな
2019/02/17(日) 12:14:04.40ID:rv+2iYBUa
>>677の記事を見れば分かると思うけど「電子計算機による情報解析を行うことを目的とする場合には、必要と認められる限度において、記録媒体への記録又は翻案(これにより創作した二次的著作物の記録を含む。)を行うことができる。」
と用途が限定されているので、ゆるキャラの画像を学習してゆるキャラメーカーを作るのはOKだけどゆるキャラの元データそのものの着ぐるみで活動するのはNG、
楽曲データを使って○○風の楽曲メーカーを作るのはOKだけど勝手に楽曲の元データを歌ったりするのはNGということ
2019/02/17(日) 12:21:27.12ID:Pkp5AUbX0
>>682
ありがとー!
2019/02/17(日) 12:34:36.08ID:p4FwcX/Y0
じゃあどんな著作物も重み1で固定したネットワーク通せば著作権フリーになるのか
2019/02/17(日) 12:41:30.35ID:Pkp5AUbX0
>>684
そういう事すると著作権自体が変わったり、裁判官が「どうみても一緒やろw」で一蹴されるからやめておくれ〜
2019/02/17(日) 12:52:15.51ID:rv+2iYBUa
常識的に考えてアウトなものは著作権法違反になるよ

https://storialaw.jp/blog/4936
>例外的に但書が適用されるケースとして、たとえば「●●風キャラクター生成モデル用学習用データセット」と銘打って
>特定の作家の全漫画を単にデジタル化しただけのデータセットを販売するようなケースが考えられます。
>このケースは確かに学習済みモデル生成用の学習用データセットとして使おうと思えば使える
>(ただし自分でラベル付などは行わなければなりませんが)データセットですので、本文2号「情報解析」には該当しますが、
>このデータは、そのまま視聴して楽しむことも十分に可能です。とすると、但書に該当することになると思われます。
687デフォルトの名無しさん (アウアウイー Sa7b-4ITP)
垢版 |
2019/02/17(日) 13:17:46.81ID:By2D3vgua
画像などの著作権について「人が」ではなく「個人が」というところを
気を付けないとね。音楽も個人が自分で口ずさむのはOK.
688デフォルトの名無しさん (ササクッテロ Sp7b-sF/z)
垢版 |
2019/02/17(日) 13:28:56.92ID:xop1bky/p
>>680
楽曲の著作権者は作詞者と作曲家だし
権利を会社が買い取っているかもしれない
歌手は自分の歌だと認識違いをしていたんだろう
689デフォルトの名無しさん (ササクッテロ Sp7b-sF/z)
垢版 |
2019/02/17(日) 13:32:52.10ID:xop1bky/p
>>682
記録媒体への記録
ってことだとネットからダウンロードして保存しただけで
該当しそう

なんか解釈が適切でないような気がする
送信可能にした人が複製権も許諾してもらってないと
おかしいと思うな
690デフォルトの名無しさん (アウアウエー Sa1f-mDuQ)
垢版 |
2019/02/17(日) 14:37:15.02ID:XZlLKfoia
アドバイスいただきたい初心者なんですが。
何からスタートさせればよいでしょうか。おもしろい実例などご紹介いただきたいです。
統計の基本はおさえてるつもりです。
691デフォルトの名無しさん (ワッチョイ 7f81-R6Dj)
垢版 |
2019/02/17(日) 14:43:22.00ID:SfPzlMrR0
元祖の囲碁
2019/02/17(日) 15:53:28.30ID:Szm+cgXy0
メジャーリーガーの格付け
2019/02/17(日) 16:31:26.38ID:+9Mws91n0
みかんの分別
2019/02/17(日) 16:47:49.82ID:Szm+cgXy0
irisからが基本?
2019/02/17(日) 18:18:53.08ID:T3+WXnTJ0
あの〜、pythonを使えば、簡単に動画から自分の顔を認識できるものなの?
勿論粗くても良いし、お遊び程度で良いんどけど。

実験材料としては、簡単に作れるから質問したんだけど。
動画から静止画に切り出すのはなんか有るでしょ。
2019/02/17(日) 18:26:00.97ID:/4f3wEi70
opencvにそういうのあるからすぐできると思うけど
すぐが1日なのか1週間なのか1か月なのか1年なのかは人による
2019/02/17(日) 18:34:22.83ID:T3+WXnTJ0
>>696 有り難う。 棺桶に入る前までには結果を見れそうで安心した。
2019/02/17(日) 19:04:22.96ID:yFzlwEVKM
葬式用の写真を自動生成するのは需要あるかもな
2019/02/17(日) 19:12:05.84ID:OPCV5npOp
>>690
本気で学ぶつもりの人向けに本を3冊紹介しよう

1. Python機械データ学習プログラミング 達人データサイエンティストによる理論と実装

2. 詳解ディープラーニング TensorFlow・Kerasによる時系列データ処理

3. パターン認識と機械学習 上下巻

1は入門書として素晴らしい
scikit-learnの使い方をしっかり学べる
2はディープラーニングでGPU使って何かしたい場合にはオススメできる
3は機械学習の教科書的存在のPRMLの和訳
機械学習関係は日本語の良書が多くて正直驚いている
これがブームってヤツか
2019/02/17(日) 19:49:43.00ID:O/E0SKNM0
>>690
tensorflowでもchainerでも良いのでMNISTデータセットで学習してみたら?
んでもって自分で手書きした数字の画像に対して推論かけてみるとか。
こんなんでとりあえずツールの使い方の手順は覚えると思う。
2019/02/17(日) 21:22:15.79ID:/4f3wEi70
MNISTって何の工夫もないRandomForestでも98%くらい行くよね
CNNだと99%もすぐ超えるけど、深層学習を使うには物足りない気がする
2019/02/17(日) 21:27:39.25ID:Pkp5AUbX0
あれは環境設定の確認用みたいなもんじゃないか
2019/02/17(日) 21:29:12.95ID:62QXlHxi0
だよね
データセットも検証も現実的じゃないし
やっぱり初学で便利なのはKaggleのカーネル読みあさるのがおすすめ
2019/02/17(日) 21:40:24.41ID:OPCV5npOp
>>703
Kaggleのカーネルいいよね
EDAから始まって、前処理からコンテストに投稿するまでしっかりと書いてある
705デフォルトの名無しさん (ワッチョイ ff82-C859)
垢版 |
2019/02/17(日) 23:14:54.64ID:n//KExYj0
良い解説サイト見つけた。

ディープラーニングの株価予測で気を付けるべき3つの落とし穴
https://aizine.ai/ai-deep-0717/?amp=1
706デフォルトの名無しさん (アウアウエー Sa1f-mDuQ)
垢版 |
2019/02/17(日) 23:22:05.18ID:X7D+GM8Na
みなさん、いろいろご回答ありがとうございます。
まずは、irisのデータでいろいろやってみようとおもいます。
それでなれたら、ほかにも手を出していこうとおもいます。ありがとうございました。
707デフォルトの名無しさん (ワッチョイ 07b3-xD6t)
垢版 |
2019/02/17(日) 23:44:28.52ID:HxZAeIvF0
株価予測でLSTMとかいつの時代の話してるんや
2019/02/17(日) 23:51:09.94ID:Pkp5AUbX0
2018.07.17の記事だった
多分2,3年前からあるよね
2019/02/18(月) 00:35:47.18ID:ajNxLPsW0
株価の変化を株価から予測するモデルはだめでしょ。
2019/02/18(月) 00:46:53.00ID:9Y7UoWyl0
昔々のショートショートSF に数学者が競馬の馬券を当てる話があったな。
2019/02/18(月) 01:25:55.75ID:4F684EvVM
>>666
ベッキーよりも上品な感じだな
712デフォルトの名無しさん (ワッチョイ bfa2-Q8Ip)
垢版 |
2019/02/18(月) 06:09:55.47ID:MrcmtMGd0
>>707
なにがいいの
普通にcnn?
2019/02/18(月) 07:33:14.65ID:aFs+DxuY0
株価予測は自然言語の解析の方が重要
ネットの情報を見てどれだけポジティブ・ネガティブな情報が集まっているかで判断するってのを見たな
株価だけ見て次を予測とか普通に考えて無理だろ
2019/02/18(月) 07:41:11.96ID:2CqHlH240
株価は予想出来ん
法則が無いんだから

法則があれば誰かがそれを利用し、法則が消え去る
2019/02/18(月) 07:45:09.23ID:9Y7UoWyl0
>>714 予想できなくてもついていくことはできる。
今の大半はコンピュータ取引だから、瞬時に大変動する。 人手だと間に合わない。
2019/02/18(月) 10:19:32.76ID:rKPIDWnV0
取引と連動まではまだしてないけど、形態素分析やって感情辞書で数値化というのを試験的に
やってみてる。辞書は金融用に自分でカスタマイズが必要。結構面倒だ。
だが手段が目的になりつつあるほど楽しいよw
717デフォルトの名無しさん (ササクッテロル Sp7b-sF/z)
垢版 |
2019/02/18(月) 11:18:26.55ID:0M5SBg0Yp
>>714
効率的市場仮説
市場にすぐに反映されるから
予測した時には遅いっていう仮説があるな
2019/02/18(月) 11:20:35.30ID:9I3F1hK7M
相場に付いてくだけでも役に立つの?
719デフォルトの名無しさん (アウアウエー Sa1f-Q8Ip)
垢版 |
2019/02/18(月) 14:39:27.15ID:vct2uGMMa
すごいデイトレーダーはチャートだけで売買してる人いるみたいよ

別に自然言語解析不要じゃないの?
2019/02/18(月) 14:40:55.30ID:KbAZJZDOM
cisってヤツだろ
2019/02/18(月) 15:19:15.78ID:F7vNxUVSM
失礼な雇用統計も参考にしていますよ
2019/02/18(月) 15:25:54.10ID:mU1u6kNHp
>>719 勿論ニュースとか、大きな統計情報の発表は予想に使いながら、どのマーケットのどんな銘柄が動くか予測して、その中でどれに投資するかはチャートを見ながらじゃないの ?

大きな流れを無視した投資は成り立たない。
2019/02/18(月) 15:54:02.21ID:6k3y6QB20
株にAIが有効だとすれば、アンサンブル学習。
唯一無二のアルゴリズムは無く、毎日チューニングの繰り返し
2019/02/18(月) 16:36:38.88ID:pR6QWSjU0
Colaboratoryで色々遊んでみているんだけど学習後にGPUメモリが開放されません。
del model とか del history とかやったあと
gc.collect() やってみたりしているのですが、
どのようにGPUメモリを解放すればいいのでしょうか?
725デフォルトの名無しさん (ワッチョイ 07b3-xD6t)
垢版 |
2019/02/18(月) 17:09:41.03ID:tg/9fSI90
計算資源があればニュースが出た瞬間の分析でもリターンは出る
チャートの動きも同じ

上に出てる感情分析は部分的には有効
でもCNN Indexの強化版みたいな役割しか無い
726デフォルトの名無しさん (ワッチョイ 07b3-xD6t)
垢版 |
2019/02/18(月) 17:12:13.33ID:tg/9fSI90
メディアの方のCNNよ
2019/02/18(月) 20:27:29.65ID:Ozev5N3p0
>>719
デイトレやスキャルのように取引間隔が短くなるほど判断材料がチャート寄りになる。
だけど利益効率は低くなる。スタイル次第だね。
728デフォルトの名無しさん (ワッチョイ 0790-OU7K)
垢版 |
2019/02/18(月) 23:00:23.07ID:bIvMqO/j0
経済指標というのは統計データにそこまで精度があるもんじゃないからね
統計改竄とか騒いでるけど今に始まったことじゃないし。
数年平均の変化率を取る程度でも意味があるかどうかギリギリ
729デフォルトの名無しさん (ワッチョイ ff7c-wP4P)
垢版 |
2019/02/19(火) 00:40:50.23ID:1Fqwt8so0
>>724
再起動
2019/02/19(火) 07:37:55.24ID:tuL2vxo10
>>729
えぇ…
放ったかしにできないじゃん・・・
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況