【統計分析】機械学習・データマイニング26

■ このスレッドは過去ログ倉庫に格納されています
2019/09/15(日) 09:23:06.34ID:bjsiNRs40

機械学習とデータマイニングについて語れ若人

*機械学習に意識・知能は存在しません。
人の意識に触れたい方はスレ違いです

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
Machine Learningを用いた論文一覧2018
https://shiropen.com/seamless/machine-learning/2018
2017年のディープラーニング論文100選
https://qiita.com/sakaiakira/items/f225b670bea6d851c7ea
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング23
https://mevius.5ch.net/test/read.cgi/tech/1551352040/
-
【統計分析】機械学習・データマイニング25
https://mevius.5ch.net/test/read.cgi/tech/1561568018/

【統計分析】機械学習・データマイニング24
https://mevius.5ch.net/test/read.cgi/tech/1556674785/
-
VIPQ2_EXTDAT: checked:vvvvvv:1000:512:----: EXT was configured
VIPQ2_EXTDAT: checked:vvvvvv:1000:512:: EXT was configured
2019/09/30(月) 10:52:05.24ID:8e9MDvd5M
ローカルなシステム開発も中途半端なところは
技術をプログラミングの民主化や、フレームワークの進歩に吸収されていくから、
組み込みでシステム開発をやってるような、振り切ってるところ以外は
生き残れる確率が低いと思う
107デフォルトの名無しさん (ワッチョイ 2b7c-wGQq [113.32.86.138])
垢版 |
2019/09/30(月) 13:48:26.95ID:FnsAlH7P0
伊勢湾台風の被災映像、AIで初のカラー化 CBCが26日番組で公開
https://www.chunichi.co.jp/article/front/list/CK2019092602000075.html

白黒と大して変わらん希ガス
108デフォルトの名無しさん (ワッチョイ 2b7c-wGQq [113.32.86.138])
垢版 |
2019/09/30(月) 13:56:04.38ID:FnsAlH7P0
>>80

2013年度 NHK会長、副会長、経営委員長等の給料(年)

NHK会長 3800万円/手当込
副会長   3370万円/手当込
常務理事  3020万円/手当込
理事     2856万円/手当込
経営委員長(常勤)3792万円/手当込
NHK社員  1780万円/手当込


※総理大臣、国会議員の給料
総理大臣 2727万円
国会議員 1842万円

【予算規模の比較】
海上保安庁 2177億5345万7000円
警察庁 3420億8472万9000円
環境省 3459億4527万4000円
NHK 7547億7700万円
2019/09/30(月) 15:14:36.94ID:5Ydl8i+L0
AIで脱税、いや節税してるのかな?

【企業】純利益1兆円のソフトバンク「法人税ゼロ」を許していいのか
https://egg.5ch.net/test/read.cgi/bizplus/1569822161/
110デフォルトの名無しさん (ワントンキン MMa3-MfK0 [153.148.100.146])
垢版 |
2019/09/30(月) 15:17:21.06ID:RcGMqML5M
blocksはオワコンかしら?
2019/09/30(月) 20:55:03.50ID:m19D9tLr0
プロト書かせても汚過ぎたらリファクタリングはできんし、
リファクタリングする方もある程度の理屈はわかってないとできん。
tensorflow なんかとくにモジュールがぐっちゃになってて、
結局両方わかるやつがいないとどうにもならんということになる。
2019/09/30(月) 21:02:45.96ID:lchn4+U/M
個人的に前処理用の関数や、モデルおよびパラメーター調整用の関数
はコード汚くても全然いい
113デフォルトの名無しさん (ワッチョイ 8d90-srNF [112.139.91.58])
垢版 |
2019/10/01(火) 01:45:26.93ID:iqt4HZRA0
>AIで初のカラー化 
何年も前にモノクロ映画のカラー化ってやったじゃん
別にって感じだよ
114デフォルトの名無しさん (ワッチョイ 9d2c-pgcN [114.161.70.250])
垢版 |
2019/10/01(火) 03:55:33.18ID:yPgD2oOI0
全くの知識ゼロは何から勉強すればいいの
115デフォルトの名無しさん (トンモー MMf9-tbXw [210.142.95.214])
垢版 |
2019/10/01(火) 08:47:56.00ID:+UPFCPY9M
マジレスするとExcelの使い方から。
データ整理でよく使うんだよ。
116デフォルトの名無しさん (ワンミングク MMa3-WiWq [153.234.115.46])
垢版 |
2019/10/01(火) 11:08:22.62ID:gKinUVIwM
クレクレ君かよ
117デフォルトの名無しさん (スププ Sd43-gkNv [49.96.35.221])
垢版 |
2019/10/01(火) 12:40:44.98ID:yogeS95od
>>113
伊勢湾台風の映像が初のカラー化ってことでしょ。
118デフォルトの名無しさん (スププ Sd43-gkNv [49.96.35.221])
垢版 |
2019/10/01(火) 12:41:12.18ID:yogeS95od
>>114
ゼロから作るディープラーニング
2019/10/01(火) 16:32:31.25ID:IzwYx3El0
>>114
猿でも分かる真相学習
120デフォルトの名無しさん (スププ Sd43-gkNv [49.96.35.221])
垢版 |
2019/10/02(水) 10:11:48.00ID:hWitUTMNd
>>119
そんな書籍あるの?
2019/10/03(木) 06:44:24.24ID:mNCtBXnn0
>>120
サルでもわかるディープラーニングでしょ。理論やプログラミングに触れないやつだよ
2019/10/03(木) 08:13:41.26ID:d+Cb0QN6a
機械学習概論〜ディープラーニングGAN、本格的に学べる全20時間の大学講義が無償公開
https://www.atmarkit.co.jp/ait/articles/1910/03/news013.html
2019/10/04(金) 19:27:29.82ID:HvucvIji0
>>122
ありがとう
わかりやすくおもしろい
124デフォルトの名無しさん (ワッチョイ 917c-MsYi [122.215.159.99])
垢版 |
2019/10/05(土) 10:12:00.74ID:g+cVNt8G0
画像を入力してキャッサバとマンジョカの違いを見分けられるかな
2019/10/06(日) 13:50:13.78ID:R4FTujg8r
>>124
キャッサバは芋でマンジュオカは粉

でいいのかな
126デフォルトの名無しさん (ワッチョイ 7b66-y1nD [183.77.216.215])
垢版 |
2019/10/06(日) 14:04:07.98ID:3Bwj9Rk40
猫の種類を識別できてるからねえ
2019/10/06(日) 16:39:42.63ID:O2SqL9Wwa
砂糖と塩は?
2019/10/06(日) 16:45:43.54ID:xEniyG0f0
画像の分類に関しては人間の精度を超えたことになってるから人間ができるものはだいたい識別できるでしょ
129デフォルトの名無しさん (エムゾネ FF33-WcZE [49.106.192.108])
垢版 |
2019/10/06(日) 17:14:50.01ID:pvG0vkV+F
片栗粉白玉粉8:2のとマンジョカとキャッサバとタピオカを全部一緒だと判定するかな
2019/10/06(日) 17:23:27.35ID:vW1W4Flv0
答え タピオカ
2019/10/06(日) 18:02:00.68ID:WtwvCzV0a
人間が見て判別できないぐらい酷似した見た目の画像を用意されても判別は難しいだろう
でも人間にもできないんだから仕方がない
2019/10/06(日) 18:37:58.28ID:7syR3WRm0
紫外線や赤外線、テラヘルツ波など人間の目が捉えていない領域を取得したデータで学習したら区別できるかもね
2019/10/07(月) 01:53:57.56ID:i7jiIDbz0
https://youtu.be/o3LK_rLG_D8
2019/10/07(月) 01:55:32.75ID:i7jiIDbz0
>>132
そんな対象に複素ネットワークをうまく利用したいですね
2019/10/07(月) 07:22:36.56ID:R1WvvUd4r
>>132
このアイデアがあったのか。ありがとう
2019/10/07(月) 07:45:45.80ID:rds9MmBYa
>>132
ただの測定やん!
にならないくらい難しいものを判定しないとな
137デフォルトの名無しさん (トンモー MM8d-2TCp [210.142.95.118])
垢版 |
2019/10/07(月) 12:51:32.67ID:wQEZJZvJM
でも美人とブスは判別できないだろ?
教えてやらないと。
俺は教わらなくても、立つほうが美人だとわかるからな。
AIは、立つ部分がないから
2019/10/07(月) 13:15:17.48ID:R68jeLYK0
親子判別機作りたいんだけどどこかに教師データ無いかな?
139デフォルトの名無しさん (エムゾネ FF33-PqvS [49.106.193.23])
垢版 |
2019/10/07(月) 13:39:13.16ID:nnDn0jE7F
色盲とか弱視のひとは
色を見分けられないんじゃなくて
特定の色には激しく反応出来るので
普通の人では観えないものが観えたりする
2019/10/07(月) 13:59:50.76ID:JTQO9o2aa
>>137
ネット上にたくさん画像がある方が美人なのかもしれない
2019/10/07(月) 14:05:01.74ID:jwAP9iy30
地味にブスの画像を集めるのって苦難の道だよな
ネット上にあるのは奇跡の一枚物ばかりだし
2019/10/07(月) 14:47:53.66ID:1thZo56ha
美醜判定の研究は心理物理実験で人が行って分けた画像に対して特徴を求めるのが一般的
2019/10/07(月) 15:39:41.65ID:i7jiIDbz0
https://youtu.be/UPjmZheyYTk
144デフォルトの名無しさん (ワンミングク MMd3-y1nD [153.234.115.46])
垢版 |
2019/10/07(月) 18:59:23.04ID:fNQWuTFbM
シンメトリー具合が客観的かと思われるけど
美醜は基準が変わるだろ
2019/10/07(月) 19:38:18.06ID:uR6CZd4Z0
顔データならリクルートとかめちゃくちゃ持ってそう
2019/10/07(月) 19:58:20.16ID:R68jeLYK0
リクルートは死ぬべき企業の一つ
2019/10/07(月) 20:53:26.67ID:rCvXE9Ys0
標準的な顔が美男美女だという研究結果が昔あったなあ
2019/10/07(月) 20:58:00.90ID:T0peqJ1N0
>>147
標準的、というか個体差を集めてその中間を取ったという意味の平均顔でしたね
2019/10/07(月) 21:37:55.32ID:mqLxFODTM
Deeplooksとかあったな
150デフォルトの名無しさん (アウアウウー Sa9d-mxGY [106.154.130.99])
垢版 |
2019/10/07(月) 22:27:15.98ID:XIT3E9Qaa
>>147
データの次元が増える程、外殻部の密度が高くなり中心部は疎になる
次元の呪いの現れ
2019/10/07(月) 22:54:06.69ID:WyRvg0cv0
>>150
その解釈があってるかどうか知らんけど面白いね
2019/10/07(月) 23:20:52.55ID:T0peqJ1N0
>>150
ユークリッドノルムは高次元では無意味、という経験ならあります…
153デフォルトの名無しさん (ワッチョイ 99ad-2TCp [124.144.197.178])
垢版 |
2019/10/08(火) 01:24:12.36ID:yvLQ2KO90
だからさ、立つ写真と縮んでしまう写真を
集めて学習させるのさ。
154デフォルトの名無しさん (ワンミングク MMd3-y1nD [153.234.115.46])
垢版 |
2019/10/08(火) 13:08:31.09ID:pQwzHIwwM
ヒューズの現象と次元の呪いって違うの?
2019/10/08(火) 13:38:33.16ID:EX96gh2V0
黄金比が審美医療で使われてるから顔のパーツの比を計測すれば美醜の判別は数値的にできると思う
あとはエントロピーの低い顔は美人なはず
ダウン症などの奇形顔はエントロピー高いから
156デフォルトの名無しさん (オッペケ Src5-mxGY [126.255.135.228])
垢版 |
2019/10/08(火) 17:22:33.79ID:73qw8B0jr
>>155
何の、何に対するエントロピー?
2019/10/08(火) 21:40:37.04ID:kGAGzuS00
平均的な顔がいいっていうデマね。
実際は美人バッカ集めて平均取った方が圧倒的に良かったとかそういう結果。
158デフォルトの名無しさん (ワッチョイ 93f1-y1nD [157.107.8.150])
垢版 |
2019/10/09(水) 04:18:18.15ID:+iZUlLJa0
そりゃーブサが平均に寄れば綺麗に見えるわ
2019/10/09(水) 12:43:17.12ID:DoX5+3oi0
機械学習やるなら、Cかjavaかpythonだよなあ

データサイエンティストおよびクラウド系のデータエンジニアならpython
大規模開発およびローカル系のデータエンジニアならjava
ローカル系および組み込みならC

javaの領域は今後すこしずつ縮小していく見通しだから、
新規で入るならpythonかCがオススメ
2019/10/09(水) 12:57:38.63ID:8Gadabtv0
>>159
出来合いのライブラリを使う話?
スクラッチでつくる暇人はいないか
2019/10/09(水) 16:41:52.12ID:IFGahd8r0
Geforce一択?
2019/10/09(水) 18:03:33.95ID:joEVXQiz0
巷で売れてるkaggle本買いました
これから勉強します
163デフォルトの名無しさん (トンモー MM8d-2TCp [210.142.95.200])
垢版 |
2019/10/09(水) 19:06:25.13ID:/Xo+Y8M3M
統計学の勉強を本気で始めたら
恐ろしく難しいということがわかってきた
どうしたらいい?
2019/10/09(水) 19:07:25.32ID:qJaHnW7l0
参考書を変える
2019/10/09(水) 19:11:04.90ID:fonAqmctr
>>161
amdも意外と使えるらしいけど、情報ないし疲れるよ。動かないとき常にうたがっちやうしね
166デフォルトの名無しさん (ワンミングク MMd3-y1nD [153.234.115.46])
垢版 |
2019/10/09(水) 19:19:32.23ID:4X2jyJQLM
古典統計学とベイズ統計学をちゃんと学びたい
2019/10/09(水) 20:05:21.59ID:K/FCWkI00
>>166
統計論と確率論は違うものですか?
2019/10/09(水) 20:14:54.29ID:fTI0icewa
統計学の中で使われる道具の1つが確率論
2019/10/09(水) 20:23:04.27ID:ZvOECUeE0
>>161
まずはawsかgcpでやってみろ。
はじめからグラボなんか購入しても必ず後悔する。
2019/10/09(水) 21:11:35.20ID:MK+5GX/v0
古典統計とは集合論と位相空間論から測度論に発展して確率論との関係性のあたり?
171デフォルトの名無しさん (ワッチョイ 93f1-y1nD [157.107.8.150])
垢版 |
2019/10/09(水) 22:40:50.59ID:+iZUlLJa0
わかんない
2019/10/09(水) 22:44:05.44ID:zMnGtdTv0
アホ
2019/10/09(水) 22:58:19.23ID:Qjd49VQKa
現実問題として、測度論まで必要になることはあるかなあ?
まずは連続量ではなくて離散量での理解が先かと思われる
それならそんなに難しくないでしょ
2019/10/10(木) 00:11:01.13ID:O5ET7Lyz0
規定関数の概念と関数のノルムさえ理解していればいらん。
2019/10/10(木) 00:11:57.40ID:O5ET7Lyz0
逆にそれがわかってない研究者はくそ
2019/10/10(木) 00:14:30.11ID:O5ET7Lyz0
それ=『規定関数の概念と関数のノルム』な。
2019/10/10(木) 00:17:00.40ID:O5ET7Lyz0
わら。×規定
自分がわかってませんでした。
178デフォルトの名無しさん (トンモー MM59-d/3+ [210.142.95.200])
垢版 |
2019/10/10(木) 02:31:31.78ID:eF+ihzDEM
グレブナー基底は重要だな
179デフォルトの名無しさん (アウアウクー MMe1-o74w [36.11.224.230])
垢版 |
2019/10/10(木) 06:52:08.55ID:H/x/U9NKM
>>160
勉強のためにスクラッチで書くならpythonがオススメ。ネットに情報が多いから
仕事のためならC一択
180デフォルトの名無しさん (アウアウクー MMe1-o74w [36.11.224.230])
垢版 |
2019/10/10(木) 06:53:03.85ID:H/x/U9NKM
>>169
何故そこでcolabが出さない
2019/10/10(木) 10:19:46.41ID:xGOoNgUAa
統計学を理解できていないのに理解したと思い込んだ人はこういう頓珍漢なことを平気で言い出す

@Inetgate:
@usukutilife @u874072e 一般的な統計処理において、標本数が30を超える場合には正規分布を仮定できますが、
えん さんが調べた結果だと全然正規分布になってないので、食べログの数値操作疑惑、真っ黒じゃねーかと。

https://twitter.com/Inetgate/status/1181488204068749312
https://twitter.com/5chan_nel (5ch newer account)
2019/10/10(木) 10:23:07.08ID:H/x/U9NKM
母集団の分布が正規分布に従うと"仮定"すれば、間違ってない意見だな
仮定すれば
2019/10/10(木) 10:25:56.74ID:H/x/U9NKM
って、もとのグラフをみたらbin数がやばかった・・・
2019/10/10(木) 14:07:25.58ID:9SEfnsqfa
標本抽出の仕方がランダムサンプリングで
母集団が正規分布の時だけに成り立つことを言っているな
2019/10/10(木) 18:30:07.85ID:7gKn5Xz20
競馬あてて見たいんだけど特徴量として前5走を使いたいんだけどどんな実装にすればいいのかな
どなたかヒントいただけないでしょうか
186デフォルトの名無しさん (ワイーワ2 FF93-1wBF [103.5.142.122])
垢版 |
2019/10/10(木) 18:50:01.66ID:i+8+28k+F
前走の結果より血統でやった方が良いって先輩は言ってた
2019/10/10(木) 18:56:00.12ID:cL0M7hVK0
入力で与えるのが出馬一覧とかで順番の意味を無くしたいならPointNetとかの構造を真似したりすればいいんじゃない
2019/10/10(木) 21:27:00.23ID:aZnaY5Is0
>>180
あれ、逆にわかりずらいと思うんだが。
環境設定がすげーわかりずれーわ。
2019/10/10(木) 23:11:06.33ID:bdrwblpoa
>>185
ググればソースコード付きでいろいろ出てくるが
190デフォルトの名無しさん (ワッチョイ cb10-vzjJ [153.131.102.129])
垢版 |
2019/10/11(金) 08:18:38.76ID:mCGV3tUv0
>>184
中心極限定理の話しで
標本数を30にした平均値の分布は
元の分布に関係なく正規分布とみなせるって事だよな

食べログの分布もその分布から標本を30取り出して
平均値を求める操作を10000回繰り返して
平均値の分布を描くと正規分布に近くなるはず
2019/10/11(金) 11:53:47.65ID:BrwAZKhG0
>>186
血統も絡めてるよていだけど、前走も大事かなと思いまして。

>>187
前走ではAの馬に負けてるから今回も厳しそう、とかの特徴を抽出したいなと思いまして、順序はそれなりに大事なのかなと考えています。

>>189
巷にあるコードよりも、より順序を重視する方法が無いものかなと。

数値やカテゴリーなどの特徴ではなく、多次元特徴を一つの特徴量として扱うことができないかなという感じです。
192デフォルトの名無しさん (ワイーワ2 FF93-1wBF [103.5.142.233])
垢版 |
2019/10/11(金) 11:58:01.09ID:hkXt1GtmF
重量ハンデは?
2019/10/11(金) 14:41:23.78ID:uWNk0GcMM
アルバイトでデータ解析やってる人間の意見としては、
とにかく役立ちそうな特徴量を選択せずにぶち込めるだけぶち込んで、
一度xgbかcgbを回してみればいいんじゃない
そうすれば重要な特徴量が何か抽出できるでしょ
話はそれからよ

勝ち馬をよく当てる人が何を大切にしているか調べることからはじめるべき
2019/10/12(土) 10:11:52.93ID:UGc1lgsI0
馬を株の銘柄に置き換えてリターンとリスク(分散)を元に
共分散使って有効フロンティアの曲線を引いて
無差別曲線と接する部分の比を見てパーセンテージの高い順に馬を買うってのは?
195デフォルトの名無しさん (ワッチョイ 653c-b92j [118.240.95.156])
垢版 |
2019/10/13(日) 00:20:47.58ID:kaSZg9r20
>>184
すでに指摘されているが、母集団の分布は正規分布である必要はない

>>190
中心極限定理の話(前半の話)はそうだけども、後半の部分は何が言いたいのかよく分からない

食べログの評点は一人当たり整数値の1~5を付けられる(ある店舗における点数分布をAとする)
各店舗は添付ごとにN人の評価の平均を平均点として算出する(各店舗の平均点分布をBとし、これが話題となっている分布)

Aの採点を行うのが一般人であると仮定すると、各店舗は同一の母集団確率分布に従うものと仮定でき、各店舗の確率変数X1, X2, …, XNは同一の母集団確率分布からのランダムサンプルと考えられる
大数の法則により、標本平均(分布Bのこと)は母集団の平均に近づき正規分布になる

標本数30以上というのはNが30以上ということで、この部分は残念ながら自明ではない
ある焼肉屋の評価は67件から構成されているが、別の焼肉屋は2件となっている

つまり最大限「食べログ」を擁護するのであれば、標本数が30以上ではないため前提条件が間違っている、ということだろうか
2019/10/13(日) 00:57:27.47ID:0ePwtCDKa
各店の平均化する前の採点が同一母集団に従うという仮定に無理がありすぎる
例えばラーメン屋とスイーツ店の採点者が同じ傾向の採点するなんて仮定は不自然
2019/10/13(日) 00:59:42.54ID:kaSZg9r20
>>196
すまん、焼肉屋しか見てなかった
実にその通り
198デフォルトの名無しさん (アウアウウー Sac9-KA+R [106.161.128.168])
垢版 |
2019/10/13(日) 06:54:46.01ID:ObLeezZqa
>>159
Juliaでしょう。
199デフォルトの名無しさん (アウアウウー Sac9-KA+R [106.161.128.168])
垢版 |
2019/10/13(日) 06:56:55.49ID:ObLeezZqa
>>160
Flux
200デフォルトの名無しさん (ワッチョイ cb10-vzjJ [153.131.102.129])
垢版 |
2019/10/13(日) 07:21:13.99ID:Fxu1r5BT0
>>195
大数の法則は標本数を増やすと標本平均が母平均に近づくということ

中心極限定理は平均値の分布に関する定理
食べログの評価の数が30になった時点で平均値を計算して
一度リセットするのを繰り返す
その平均値の分布は正規分布に近づく

今の評価の分布がその店に行く人の評価の分布を表している
のであれば今の評価分布から30標本を取って平均値を求める
操作を復元抽出で繰り返しても同じような結果になるだろう
201デフォルトの名無しさん (ワッチョイ cb10-vzjJ [153.131.102.129])
垢版 |
2019/10/13(日) 07:23:54.12ID:Fxu1r5BT0
ある店の評価分布は標本数が多くなっても正規分布になるとは言えない
分散が広くなるのはその店のサービスや品質が安定していない事が原因になりうる
その店の特徴が分布に反映される

同様に店を評価する側の特徴も反映されるだろう
2019/10/13(日) 07:58:04.98ID:S6cUkNQoM
深層学習の凄いことのひとつは特徴量を人が設計する必要がない、と本とかに書いてありますが、どう理解すればいいのか分からず教えてください!

ここでいう深層学習とはニューラルネットのことですか?(線形回帰やSVMと違って説明変数を人間が決めてないから? )
2019/10/13(日) 08:07:52.14ID:A69S9ntC0
レビューを投稿する行動を取る時点で母集団にサンプルバイアス
2019/10/13(日) 08:55:43.76ID:kaSZg9r20
>>201
言ってることの一つ一つは正しいことは理解できるんだけど、何が言いたいのか理解できないんだ

食べログが評価を操作しているかどうか、は今説明してくれた事を駆使すれば判別できるんだろうか?

あるいは、Twitterの書き込みのおかしさ、は今説明してくれた事を駆使すれば、ココがおかしいと指摘されるんだろうか
2019/10/13(日) 09:26:19.57ID:vNAU+AUMa
>>201
各店舗の分散は各店舗の分布には影響しても全店舗の平均値の分布には影響しないでしょ
2019/10/13(日) 10:08:21.52ID:uKg8mtfTa
中心極限定理はあくまで「同一の母集団から得た独立な確率変数であれば、十分な数の平均値を集めたものの分布が正規分布に近似できる」というもの
全店舗の採点者が同一の基準に従う採点を行うという前提が成り立たなければ成立しない定理
■ このスレッドは過去ログ倉庫に格納されています