【統計分析】機械学習・データマイニング21

■ このスレッドは過去ログ倉庫に格納されています
2018/11/04(日) 14:34:36.02ID:W830XVm1a
機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング20
https://mevius.5ch.net/test/read.cgi/tech/1533635797/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured
2018/12/26(水) 12:41:06.57ID:SKc2oSlY0
因果関係を見つけるために、何かのデータと何かのデータを
用意しなきゃならないが、時間は無限にあるわけじゃないし
データも集められるわけじゃない(例えばすでに破棄した過去のデータは分からない)ので

結局今は人間が関係ありそうなデータ、もしくは集めることが可能なデータを
持ってきて因果関係があるか?を検証する作業になってしまってる
「因果関係を見つける」のではなくて「因果関係があるか?」の検証になってしまっている。

そして因果関係がありそうと人間が判断するものはやっぱり因果関係があるわけで
人間が計算式作ってやってもそこそこ精度は出る。
未知の因果関係を見つけるのには相当時間がかかる。

つまり何が言いたいかというと、機械学習でメリットが有るかどうかは運次第だし
データに因果関係があるとわかっていても、それを集めるのには時間(コスト)がかかるので
機械学習やってビジネス的に儲けがでるかはトレードオフの問題に落ち着く
当たり前だけど銀の弾丸じゃないんだよね。

数年後には、宇宙の中から新しい星を探すように「因果関係があるもの」を探す人たちと
判明した因果関係に関係があるデータを集める人・販売する人たちに分かれるだろう
2018/12/26(水) 14:13:38.56ID:0GgU1Jru0
G検定の資格とったらslack招待されるっての聞いたから
11月に取ったんだけどslack招待されない…

誰か入った人いる?
2018/12/26(水) 14:23:26.02ID:2brlvucld
>>608
現役で活躍してる人は忙しいから仕方ない
2018/12/26(水) 14:39:15.43ID:PJb7Mv/00
E検定って受験資格が教会認定の講座修了者で
ちょっと調べたらその講座が30万円とかなのな
インチキ臭え
2018/12/26(水) 15:08:06.25ID:NDOZg+/7a
>>609
機械学習の学習結果の妥当性証明に因果関係の証明が常に必要なわけではないぞ
よくある画像による製造品の不良判定なら因果関係なんて気にする必要ないし
2018/12/26(水) 16:53:49.40ID:SKc2oSlY0
>>613
それも製造品の形や重さが他と違っていたら不良ってことだろ?
でも物によっては形や重さが違っていても不良とは限らない。例えば料理とか。

人間がこの製品は形や重さが違うなら不良と考えるから、
形データ(つまり画像)や重量を入力としてるわけで
結局それは人間が因果関係を判断して入力データとして与えてる

機械学習でどれくらい違っていれば不良とみなすかを機械で判定できると思うが
人間が○%と値を入力してもそれほど大きな違いは出ないだろう
それに最初は人間が、これはOK、これはNGって判断する必要があるだろ?

まあOK、NGと判断する作業は今も人間がやっているわけで、
機械学習のための追加のデータ取りのコストはかからないと思うが
なんていうか、そんだけだよねーって感じなんだよ

新しいものを作るっていうよりか、単に精度を上げるための
データ入力者になった感じで、面白みがない。
技術は完成されいて、あとは道具を使うだけ
2018/12/26(水) 17:36:56.28ID:ZpLOOFiwM
長いのでNG
616デフォルトの名無しさん (アウウィフ FFc9-1q7i)
垢版 |
2018/12/26(水) 17:43:13.93ID:1qe+8L32F
こういうのはAIには難しそう
https://twitter.com/qpinemarch323/status/1077199404816187392
まだ東大の問題ωの方が解ける可能性あるわ
https://twitter.com/5chan_nel (5ch newer account)
2018/12/26(水) 17:48:11.82ID:OPlBgdp40
>>616
迷路を解くアルゴリズムはとっくの昔にあるよ・・・
618デフォルトの名無しさん (オッペケ Sr61-Mh38)
垢版 |
2018/12/26(水) 17:59:01.32ID:4yVGae5ar
最適化の対象としてうまく数式に落とし込むのはまだ人間の役目だよね
2018/12/26(水) 18:30:37.18ID:EeoGCGRR0
>>608
使えなさそうw
ろくでもないラインナップだなw
2018/12/26(水) 18:31:46.80ID:aOoIS3cHH
kaggleのタイタニックで勉強していざ他のもやってみようと思ったんだけど
カーネルでほかの人の見ないことには何も手が動かせない

どこに着目してどういう特徴量作ったらいい、どのパラメータでどんなestimatorを使えばいい
そういうのがまったく思い浮かばない

生データ渡されてまずどこから手を付けるみたいな方法論勉強する方法orいい参考書ないですか
こういう処理をするにはこういうコードとかそういう本はいくらでもあるんだけど
621デフォルトの名無しさん (トンモー MM59-Kky7)
垢版 |
2018/12/26(水) 19:10:34.38ID:zlBAVDN8M
>>608
見事に馬鹿ばかりだな。
資格ビジネス狙いのクズ朝鮮人ばっかw
622デフォルトの名無しさん (ササクッテロレ Sp61-YjqT)
垢版 |
2018/12/26(水) 19:21:06.94ID:8+a035szp
>>614
別にあなたが面白いと思わなくても
役に立つならそれを使う人には価値がある

あなたはあなたが面白いと思うものをやれば良い
他のことがあなたにとって面白くなくても
あなたがやる事は変わりない
他にケチつけずに好きにすれば良い
2018/12/26(水) 19:24:45.31ID:Wyt7kWB4p
>>620
与えられた課題に対して解決方法が知りたいなら、キーワードはモデリングかな
ある程度考え方の基礎がないとモデリングは難しい

勉強方法としてはKaggleとかの方法をそのまま別の課題に適用して、自分の引き出しを増やすことから始める

ある程度こなせるようになって、それでもまだ足りないなら原理を学ぶ必要があるので、統計学や時系列分析、ベイズモデリングのような入門書を読む

高度な数学まで勉強する必要はないけど、自分の言葉で説明できるくらいまでは理解と経験が必要
2018/12/26(水) 19:32:09.33ID:vrpNaYHk0
汎用的なものがほしいですね
2018/12/26(水) 19:34:11.40ID:vrpNaYHk0
経験則なんて頼りたくないものです
2018/12/26(水) 19:57:53.25ID:7Jt9vuQx0
kaggleで言うなら、機械学習のアルゴリズムより典型的なアルゴリズムの方が面白い
2018/12/26(水) 20:08:49.00ID:pnyjyGEy0
ババアw
2018/12/26(水) 20:09:17.18ID:pnyjyGEy0
都中
2018/12/26(水) 20:13:26.23ID:7Jt9vuQx0
機械学習なんて正確性無いし、機会がやる必要ないよね
2018/12/26(水) 20:13:39.30ID:7Jt9vuQx0
コンピュータがやる必要ない
2018/12/26(水) 21:35:05.18ID:vrpNaYHk0
他人に説明しやすければ、メリットはデカイんだけどな
2018/12/26(水) 21:38:58.22ID:THkVMJ6O0
よし、それじゃあパウル君にやらせよう
2018/12/26(水) 22:20:05.30ID:npb9YBls0
>>622
役に立たないなんて言ってないよ。

ソートライブラリみたいなもんだなってこと
ソートしたいときにライブラリ使っておしまい

ソートそのものについて研究することはないなぁってこと
2018/12/26(水) 22:50:51.33ID:cRjPUG9L0
えっ
2018/12/26(水) 22:59:29.99ID:npb9YBls0
だってデータ集めて流せば終わりやし
2018/12/26(水) 23:24:32.11ID:0GgU1Jru0
資格商法っぽい気はしたがG検定取ったわ
松尾研究室有名だし、転職のときに使えそうだから
2018/12/26(水) 23:55:32.97ID:eK314zDk0
E資格もそうだけど、未経験者が意欲をアピールするのには使えるよ
638デフォルトの名無しさん (ラクペッ MMdd-UqqQ)
垢版 |
2018/12/27(木) 00:24:45.59ID:Nnsyug5pM
E検定は内容としては演習問題も含めてコーセラのディープラーニングコースに似てるかな
どうしても日本語で勉強したい人くらいしか需要無さそう
2018/12/27(木) 00:51:11.66ID:FixG7szi0
機械学習とかつまんね
数学当たり前とか言ってるけど、他の情報科学だって必要だし、気取ってんじゃねえよ
2018/12/27(木) 03:42:08.33ID:QbB+qhLj0
NG検定
2018/12/27(木) 07:43:58.41ID:Vfu+cRgY0
Neural Ordinary Differential Equationsってどうよ?
2018/12/27(木) 08:18:08.21ID:DfJTLRgn0
>>623
参考になりました。とりあえず量をこなすところからですか
しかしまいったなー明日プレゼンなのにろくなもん出せそうにないな
2018/12/27(木) 08:42:27.41ID:dq01g3G80
>>642
参考書を忘れていました

月並みだけどPRMLは良い本ですのでKaggle等の課題と並行して読むのがよいと思います
日本語の訳本が出ていて「パターン認識と機械学習」という本です
644デフォルトの名無しさん (ブーイモ MMde-frri)
垢版 |
2018/12/27(木) 09:36:37.47ID:X1PNXoe/M
エロ系のデータセットってある?
モザイク消しを深層学習で出来るか試してみたい。
2018/12/27(木) 14:18:15.80ID:77scK8dX0
>>644
さすがにないだろ……聞いたことない
海外から無修正画像をスクレイピングしてきて自分でモザイク修正してデータセット作るしか
2018/12/27(木) 15:30:31.87ID:xSnO512RM
まず、自動でモザイクかけるAIを作るのかw
2018/12/27(木) 15:37:30.88ID:MGCavWend
データセットが洋モノに偏ってあそこだけ洋っぽくなりそう
648デフォルトの名無しさん (ロソーン FFa1-Oscs)
垢版 |
2018/12/27(木) 16:19:30.67ID:X03Q+yv7F
たしかにモザイクから復元するのに利用してる先行研究はあったはず
2018/12/27(木) 16:29:25.56ID:X1PNXoe/M
データセット無いかー。今考えてる方法は
1.洋物無修正動画をVottでマンコチンコトレーニングデータを作る。
2.yoloとかで自動モザイク装置作ってモザイクを入力としたDCGANでトレーニング
3.モザイク認識ソフトを作ってモザイクを切り抜き、切抜き箇所を2.にかけて出力を元画像と合成

GLCICは学習コストが凄そうなのでできれば回避したい。他に良いアイデアあったら教えて
2018/12/27(木) 16:41:22.77ID:1o6+PNFf0
>>644
アニメ系ならあるけど
https://github.com/deeppomf/DeepCreamPy
2018/12/27(木) 17:01:13.23ID:X1PNXoe/M
>>650
サンクス、Partial Convolutionsというのがあるのね。
これだと複数のモザイク箇所にも対応できそうだね。
2018/12/27(木) 17:11:03.99ID:X1PNXoe/M
もしかして、マンコチンコトレーニングしなくても無修正画像をPartial Convolutionsでトレーニングすれば良いだけだったりするか?
光が見えてきた気がする
2018/12/27(木) 17:21:24.33ID:2LS3jhIW0
マ●コが見えてきた気がする
2018/12/27(木) 17:24:50.95ID:RZ3xJ99q0
機械に頼るな
心の目で見るんだ
2018/12/27(木) 17:25:28.71ID:NCjIgPPe0
https://gigazine.net/news/20170208-pixel-recursive-super-resolution/
https://gigazine.net/news/20171101-algorithm-low-resolution-images/
8*8ピクセルから復元出来る
2018/12/27(木) 17:35:48.30ID:T1w2lFK8a
モザイクの復元か
2018/12/27(木) 17:42:47.76ID:xSnO512RM
jpg時代のDejavu。エロは偉大なモチベだw
2018/12/27(木) 21:44:15.51ID:2qDLgn1i0
GANだと出来上がるのは機械の想像物にならんか?
2018/12/27(木) 23:00:37.63ID:dq01g3G80
>>658
人間の想像といい勝負
真実は誰も分からないのだから
2018/12/27(木) 23:20:01.45ID:JdZkwcys0
>>658
モザイクの向こう側にある真実を探求するつもりはないよ。違和感なくモザイクが消えればそれで良いと思ってる。
極端な話、機械が妄想して全員綺麗なマンコになってもいいと思う。
661デフォルトの名無しさん (ワッチョイ 95b3-rWdN)
垢版 |
2018/12/27(木) 23:57:27.63ID:XnkO3CS60
>>658
モザイクかけた時点で情報は失われているから元通りに復元するのは不可能
想像でそれらしく補うしか無い
2018/12/28(金) 00:24:40.64ID:qU8TuhmSa
荒くなってはいるが黒塗りとかじゃないんだし完全に情報失われてるわけじゃないでしょ
2018/12/28(金) 03:00:23.93ID:OPkwyCCZ0
エロAIはよ
2018/12/28(金) 03:23:06.50ID:Nt5XO8IQ0
本物そっくりのCGでもわいせつ物扱いになったし
そのうちモザイクも違法になるかもしれんね

画像から欠けた部分を補完する技術はあるし
どうせそう遠くない未来に、動画の欠けた部分を
補完する技術も一般的になるでしょ?

「欠けた部分」を「モザイクパターンになってる部分」に置き換えるのも
そう難しいことじゃないだろうし、モザイクの部分を本物そっくりのCGに
リアルタイムに置き換える。その時に色情報を使用すればよりリアルになる

結局の所補完した画像はCGなのだが、CGがわいせつ物扱いになるしなぁ
より本物に近いCGを作れるモザイクから違法になって、
最後には黒塗りもアウトになるかもな。

ん?その流れで行くと、水着や下着もアウトかもしれん
今の技術で裸に見える画像(水玉コラ)を補完したらどうなるんだろうか?
流石に誰かやってるよな?
2018/12/28(金) 03:30:13.25ID:Nt5XO8IQ0
よりリアルな補完画像画像(よーするにコラだなw)が
誰でも簡単に作れるようになったら、誰でもわいせつ物が作れると同時に
逆にリベンジポルノ流出とかでもあれはコラだって
言い張れるようになるかもしれないな
写真(そのうち動画)がなんの証拠にもならない時代
2018/12/28(金) 03:43:57.02ID:Nt5XO8IQ0
>>655
モザイクから元の顔に戻せるように見えてるけど
似顔絵捜査員とどちらがすごいんだろうかね

情報量自体は被害者の記憶を言葉にしたほうが少ないと思う
たったあれだけで、それなりの精度をだせるなら
訓練すればモザイクから元の顔を書く
モザイク捜査員が生まれるかもしれない!
667デフォルトの名無しさん (アウアウイー Sa35-J3Xo)
垢版 |
2018/12/28(金) 07:24:47.70ID:jk6Z9ErNa
>>665
暗号化しなくても、モザイクでアップしておいて
あとは利用者が勝手にどうぞ。

なんてのが出来ちゃうわけだ。
2018/12/28(金) 07:40:23.31ID:Nt5XO8IQ0
機械学習とはもう無関係なくなってきたが、モザイクどころかなにもないところから
コンピュータが人工知能で作り出した本物そっくりなCGはわいせつ物になるんだろうか?
2018/12/28(金) 07:42:55.28ID:xbVEt4Kl0
猥褻物判別AIが判断しそう
2018/12/28(金) 07:47:16.82ID:Nt5XO8IQ0
猥褻物判別AIは、生成されたCGに対して反応するわけだから
そのCGを生成するための元データ(=モザイク画像)を配布したら・・・?

未来もまだまだ、法律の抜け道と無理やりな法解釈のイタチごっこが続きそうだな
671デフォルトの名無しさん (アウアウイー Sa35-J3Xo)
垢版 |
2018/12/28(金) 08:24:37.00ID:jk6Z9ErNa
>>668
本物そっくりだから、本物と区別できない
だから、本物かもしれない
よってわいせつ物

かな〜
2018/12/28(金) 09:52:24.03ID:Wn6dMni60
>>658
著作権上は機械学習は人間の道具として扱われる
でも機械学習のコードを丸パクリした場合はほとんど定義されていない
この辺りしっかり決めておかないと非常にマズイ事になる気がする
2018/12/28(金) 09:55:24.02ID:zXZ69/3K0
漫画だってわいせつ物になりえるんだからCGもものによってはなるでしょう。
2018/12/28(金) 10:45:47.06ID:CHUSo/SN0
わいせつの3要件

徒に性欲を刺激・興奮させること
普通人の正常な性的羞恥心を害すること
善良な性的道義観念に反すること
2018/12/28(金) 10:55:29.66ID:2zbjWBV3M
ワイ動画見ただけじゃ興奮しないんだが。猥褻物なぞ無いキリ
676デフォルトの名無しさん (ワッチョイ 0523-+kHz)
垢版 |
2018/12/28(金) 11:28:32.32ID:dG0NGNXL0
児ポだって大多数の人は興奮しないから猥褻物に該当するかどうかみたいな議論あるしな
2018/12/28(金) 11:35:03.92ID:3yiiX6rlM
猥褻物を描く機械じゃなくてモザイクを消す機械だから問題無いのでは?
消した画像を公開できる状態にしたら流石にダメだろうけど。
678デフォルトの名無しさん (ラクペッ MMdd-+kHz)
垢版 |
2018/12/28(金) 11:40:38.32ID:Xa1MxpzYM
Winnyやマイニングスクリプトで検挙される国ですし
2018/12/28(金) 11:43:58.12ID:JLORl2/qF
お前らエロの話題だと急に盛り上がるなw
2018/12/28(金) 12:06:41.23ID:Wn6dMni60
winnyは開発者が捕まるのがありえなかったよなー
マイニングスクリプトはモバイルはマジでやめて欲しいぞ。電池無くなる
PCで一部リソース使うぐらいならいいけど
681デフォルトの名無しさん (アウウィフ FF39-Oscs)
垢版 |
2018/12/28(金) 12:10:54.40ID:sicn3fFVF
名前忘れたけど反転系モザイク解除ソフトも捕まってたな
あれもソフト作る側には問題無いのに
2018/12/28(金) 12:13:34.81ID:srjLee/0a
一般的なセキュリティの紹介記事書いただけでウイルス公開したことにされて有罪食らう国だし
2018/12/28(金) 12:25:06.68ID:1eV7vVnKM
海外の鯖に置けばいい
2018/12/28(金) 12:40:59.01ID:3yiiX6rlM
Winnyの件を考えると、モザイクを消す学習済みモデルを配布するだけで逮捕されそうだよね。
でもまあ学習前のソース配布は問題ない筈だから
(類似や同じネットワークモデルを利用した他のソフトも違法になるため)
学習用無修正画像を自前で用意できればなんとかなりそうではある。
685デフォルトの名無しさん (ワッチョイ 0523-+kHz)
垢版 |
2018/12/28(金) 12:50:57.52ID:dG0NGNXL0
何らかのサービスを提供する場合は海外鯖に置いていても運営元が日本にあると判例上アウトだよね
686デフォルトの名無しさん (スフッ Sdfa-JcBT)
垢版 |
2018/12/28(金) 12:53:10.36ID:9fFTYmAmd
アルファ碁の深層学習の仕組みについて
わかりやすく教えて下さい。

従来のようにモンテカルロ木探索も使われているのはわかりますが
深層学習をどう利用しているのか、いまいちよくわかりません。
深層学習は、画像認識ならわかりますが
これをどう囲碁に利用しているのかイメージが出来ません。

この点をわかりやすく教えて下さい。
よろしくお願いします。
2018/12/28(金) 13:46:50.39ID:yS/2qGZjH
kernel読んでたらデータの標準化って出てきたんだけどこれやってもいいもんなんですかね
たとえば[1, 2, 3, 4, 5]だと[-2, -1, 0, -1, -2] / √2になるそうで
でもこれだと例えば最後の要素が最初の要素より4大きいっていう情報は欠落するじゃないですか
データの絶対値って重要じゃないんですかね
688デフォルトの名無しさん (アウウィフ FF39-Oscs)
垢版 |
2018/12/28(金) 14:05:02.53ID:sicn3fFVF
2乗して足すから問題ないって感じか
2018/12/28(金) 14:08:52.59ID:Wn6dMni60
>>685
DMMだかfc2の無修正エロサイトは日本語で紹介してるから日本扱いでautoって無茶な判例だった
690デフォルトの名無しさん (ワッチョイ 95b3-rWdN)
垢版 |
2018/12/28(金) 14:09:37.53ID:KXx45DYL0
それは標準化の仕方が間違ってる
[-2, -1, 0, 1, 2]/√2
が正しいから大小関係は残る
2018/12/28(金) 15:15:52.25ID:wGEI6iLia
>>687
よくある標準化は学習データを平均=0、分散=1にしてその時に使った係数を残しておいてテストデータにも適用する
分散を変える以上は差の絶対値が変わるのは仕方ないが同じ係数をテストデータに使うのが重要で、結局同じ比率で調整されるので問題はない
2018/12/28(金) 15:43:33.87ID:Nt5XO8IQ0
>>680
> winnyは開発者が捕まるのがありえなかったよなー
winnyは開発者は、考え方が厨二だったからなぁ

この世界は腐っている。一度滅びなければいけない。
新世界を作るために、私は滅びの道具を作った。
だからな。


世界を良くする道具を作ればいいのに、
なぜか滅ぼす道具を作って「お前らあとは頑張れ」だもんなぁ。
あんなんだからWinnyは何も変えられなかった。
2018/12/28(金) 15:44:18.38ID:Nt5XO8IQ0
厨二っていうかサイコパスかな
2018/12/28(金) 16:06:37.31ID:2zbjWBV3M
まともな用途向けだと流行らなかったりして
695デフォルトの名無しさん (ワッチョイ dad2-CP3A)
垢版 |
2018/12/28(金) 17:31:39.09ID:tfE2tijX0
生きてたら仮想通貨やってただろうな
まああれも結局マネロン用途だろうからまともではないか
2018/12/28(金) 17:38:25.10ID:2zbjWBV3M
ソフトイーサはいいところ攻めてるような。捕まらないような持って行き方は色々あったろうに
2018/12/28(金) 17:39:23.71ID:Nt5XO8IQ0
ソフトイーサは単なるVPNじゃん。OpenVPNと変わらない
2018/12/28(金) 18:19:41.45ID:+dm45OvN0
このブログの人の勤め先ってNTTデータとかCTC?
http://biz-and-deep.hatenablog.com/entry/2018/03/01/001228

外資系じゃなそうだけど、
この頻度で新規AI案件を取ってきて回してる大企業って思い浮かばない
2018/12/28(金) 18:29:01.65ID:Wn6dMni60
>>698
NTTデータじゃないと思う。こんな下流は回らない
にしても日本はIT関連の営業レベルが低すぎる。
*やばいエンジニア
以下は本気でヤバイ
700デフォルトの名無しさん (アウアウイー Sa35-J3Xo)
垢版 |
2018/12/28(金) 18:47:51.76ID:3Bc3qTdBa
ここに書いてある中で、一つだけ賛成できないのは
データ(分析対象になるデータ)の件。
それこそ、生の形でデータを受取り分析者側で加工から
やることが私は必要だと思っている。

そもそも顧客のデータを信じるところから始めてはいけない。
今は、ネットのデータだったり、データが集まりやすいし
さらにデータベース化されているケースが多い。

それに甘んじたまま分析に入ろうとする人が多いのは
私は疑問。
2018/12/28(金) 19:07:54.99ID:Nt5XO8IQ0
>>700
どれに対して言ってるのか知らないけど
機械学習はデータをコンピュータを使って高速に演算するものなんだから、
データが重要なのは当たり前だよ。

でも "機械学習" ではないけどね。俺が機械学習に興味が薄いのは
結局最後にはデータをどうするか?の話になってしまうのがわかってるから。
機械学習のアルゴリズムがーではなく、○○データを加えることで精度がー。とかいう流れになる

行き着く先は、データの売買ビジネスだよ。

今はデータが有るようで無いからね。
例えば売上データはあるが、あるのは売上データだけだ。コンビニとか
年齢層入力してる(してた?)が曖昧だし、ポイントカードで情報抜き取る必要があるが
全員抜き取れるわけじゃないし、別の店で買う場合もある(つまり売れるはずの商品がわからない)

精度をあげるためのデータがわかってる。だけどそれらを集めるには
他社と協力していろんなデータを集めて統合しなければいけない
個人情報の保護がある時点で難しいし、ライバル会社と協力なんかしないだろ?w

となると第三者のデータ売買会社からデータを買うことになる。
その始まりの姿がTポイントカードだろう
2018/12/28(金) 19:13:51.37ID:Nt5XO8IQ0
>>700
> 今は、ネットのデータだったり、データが集まりやすいし
> さらにデータベース化されているケースが多い。

ぶっちゃけ無いよ。

データベースの用語風に言えば、今データベース化されてるのは
マスターデータ。機械学習で必要なのはトランザクションデータ
トランザクションデータはほとんどデータベース化されていない

せいぜい自社の過去のデータが、必要最小限だけ残ってる程度

大企業以外、統計的に役に立たない
(正確に言えば人間が予測した精度と大差ない)
2018/12/28(金) 19:17:04.43ID:Wn6dMni60
>年齢層入力
元コンビニバイトだけど、忙しいと全部「10-20代」を叩くのが当たり前。タバコと酒でエラー出るからな
忙し店は若者向けで入力してる可能性が高い、というか当たり前
704デフォルトの名無しさん (アウアウイー Sa35-J3Xo)
垢版 |
2018/12/28(金) 19:22:49.32ID:3Bc3qTdBa
>>701

そういう話をしたわけじゃないんだよね。
残念ながらデータは足りなくてあたりまえだから。
705デフォルトの名無しさん (アウアウイー Sa35-J3Xo)
垢版 |
2018/12/28(金) 19:24:30.41ID:3Bc3qTdBa
>>703
そうですね。
その問題はもう25年前から出てきている話題
2018/12/28(金) 19:26:13.36ID:Nt5XO8IQ0
>>703
そうそう。信用できる過去のデータは少ない。
そういう意味でも「今はデータが有るようで無い」

データが間違ってるんだから、そこから学習しても間違った答えになる
まあ結局は確率でしか答えが出ないんだから、
ある程度は正解するんだけどねw

で、精度をあげようとすると、データの質がーって話になって
正しいデータを入力するよう徹底してくださいとか、
修正できるなら修正してくださいとか(例えば明らかなタイポとかなら修正できる)
そういう話に行き着くので、つまらねぇなぁと
707デフォルトの名無しさん (アウアウイー Sa35-J3Xo)
垢版 |
2018/12/28(金) 19:27:47.85ID:3Bc3qTdBa
>>706
そうなんです。
それを知るためには、まず本当の生データを分析するところから
はじめないと、ならないんですよ。
708デフォルトの名無しさん (アウアウイー Sa35-J3Xo)
垢版 |
2018/12/28(金) 19:31:46.09ID:3Bc3qTdBa
>>702
>大企業以外、統計的に役に立たない
>(正確に言えば人間が予測した精度と大差ない)

それ自体の分析から始めないとあかんのよ
それを使えるようにしてゆくのが仕事
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況