【統計分析】機械学習・データマイニング27

■ このスレッドは過去ログ倉庫に格納されています
2020/01/13(月) 14:11:24.56ID:srY+iVUM0

機械学習とデータマイニングについて語れ若人

*機械学習に意識・知能は存在しません。
人の意識に触れたい方はスレ違いです

■前スレ
【統計分析】機械学習・データマイニング26
https://mevius.5ch.net/test/read.cgi/tech/1568506986/

スレ立ての際は、一行目冒頭に
!extend:on:vvvvvv:1000:512
をお願いします。
VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured
98デフォルトの名無しさん (ワッチョイ a552-kgOU [118.243.199.173])
垢版 |
2020/02/08(土) 17:12:37.59ID:PiS6W2Mm0
東大生て簡単に複雑な式展開するけど
機械学習研究でなんら成果出さないよね
2020/02/08(土) 20:55:11.97ID:XhoMbEVkM
東大発ベンチャーの派遣採用でpandasの理解度を見たいとか言ってjupyterで集計処理やらせようとするの笑えた
プログラマはjupyter使わないし、試験は違法だしで絶句
2020/02/08(土) 21:19:46.90ID:GuOhFnKw0
割とjupyterで書かせようとするところあるな。
コードがまともに管理されてないんじゃないかと心配になるわ。
2020/02/09(日) 02:34:47.21ID:uxhunt920
>>99
pandasなんて大規模じゃ使い物にならんだろ
どんだけ少ないデータ扱ってるんだよ
2020/02/09(日) 02:41:35.72ID:OACAfflF0
>>101
え??
2020/02/09(日) 10:38:17.38ID:YN7A6xxbM
>>101
受託して分析するなら、間に合うんでしょう
自社工場のデータとかテラバイト超えたら、Hiveかねえ
2020/02/09(日) 11:28:14.20ID:eJkdQx56a
未だに扱う容量の大きさ自慢してる時点で程度が知れる
105デフォルトの名無しさん (ブーイモ MMeb-A1ij [163.49.200.225])
垢版 |
2020/02/09(日) 12:23:34.87ID:KO2E5bjGM
>101サンプルって知ってる?
2020/02/09(日) 12:42:03.07ID:OACAfflF0
>>99
試験は違法ってどゆこと?
2020/02/09(日) 13:23:35.77ID:YN7A6xxbM
>>106
労働者派遣法第26条第7項
2020/02/09(日) 14:03:52.79ID:eJkdQx56a
つまり派遣の採用前の面接とか選考は違法ってことね
実際にはどこでもやってるけど
2020/02/09(日) 14:31:06.24ID:lHBgXdX90
「特定目的行為」とは、労働者派遣契約の締結に際して、
派遣先企業が派遣労働者を特定することを目的とする行為

これが禁止なら、もし仕事ができない派遣労働者が来たら、どうするの?
1日で、突っ返すのかな?

無料のお試し期間もあるのか?

派遣をやってる会社は、3割とか、お金を抜くだけで、全く存在する必要がないよな。
ホリエモンの言う、電通はいらないと同じだろ。
個人エージェントなら、1割ぐらいでやってくれるらしいし

存在する必要がないのに、それを守りたいから、あれこれ理屈を付けているだけだろ

日本人は中間業者が好きだけど、米国人は嫌う
2020/02/09(日) 14:35:04.10ID:YN7A6xxbM
そうなのだから面接まで行ったら採用なのよ
2020/02/09(日) 14:38:48.79ID:YN7A6xxbM
>>109
派遣会社が使えるかを判断するんだ
更に派遣先も選ぶと2回選考したことになって、雇用側に不利。
それがイヤなら、正社員を採用しなさいという法律になってるのだ
2020/02/09(日) 14:51:00.00ID:lHBgXdX90
そもそも、派遣を頼むような会社は、成果物がハッキリと分からないから、
派遣労働者にコンサルタントも兼ねてもらって、方向性を決めたい

求める成果物が分かるなら、すでに技術に詳しいわけだから、請負になる。
時給じゃなくて、成果物の値段になる

派遣の場合は、やってみて駄目なら、仕事がコロコロと変わるから、時給になる。
やるべき仕事を決められないし、決められるほど、技術を知らない顧客だろ

だから、派遣労働者の能力次第で、出来るかどうかが変わってくる

出来る人なら、Ruby on Rails でやるし、
出来ない人なら、PHP でやるとか、大きく変わってくる!
2020/02/09(日) 15:03:08.27ID:YN7A6xxbM
>>112
東大発AIベンチャーで上場しててあれだからねえ。この界隈心配になってくるぜ
2020/02/09(日) 15:35:23.63ID:lHBgXdX90
Jupyter は、Julia, Ruby でも使えるけど、

プログラマーは普通、VSCode を使う。
Microsoft も、Python の拡張機能を作っているし

基本、Jupyterは学者とか、VSCodeを使えない、ノンプログラマーが使うものw
2020/02/09(日) 15:39:26.51ID:YN7A6xxbM
漢は黙ってemacs
なお異論は認める
2020/02/09(日) 16:01:18.86ID:HNM7gB0G0
>>109
大企業はいざというときに人数を確保できなといやなんだって(友人談)、当然下請け、孫請けが増える
2020/02/09(日) 17:02:20.70ID:zQMfFqEka
vscodeってプログラミング初心者かそれほどプログラムをがっつり書かなくていいけど少しは書くことがある職の人が使っている印象
MSやその他オフィシャルな所が用意する拡張機能を入れればある程度使い物になるし設定もそれなりにいじれるのはいいけど
徐々に痒いところに手が届かないことに気が付いてvimとかemacsを検討し始める
2020/02/09(日) 18:07:35.93ID:BmrGMO/L0
派遣で人を集めて違法な事前面接でJupyterNotebookでテストだとしても
東大発AIベンチャーって、一応、仕事らしきことはやってんだな
2020/02/09(日) 18:24:11.01ID:EoI3r47q0
>>116
じゃ正社員として雇えよって話なんだがな。。
クソロクでもない話だわ。
2020/02/09(日) 18:50:57.66ID:HNM7gB0G0
>>119
大手の元受けを受ければいいだろ採用されるかどうかは知らんが
2020/02/09(日) 22:13:10.73ID:EoI3r47q0
>>120
取らない理由も確保した分の給料払う気がないってのも知ってるよ。
だから何から何までカスだっていってんだよ。
クソみたいな都合でいざという時に困って振り回す機構に付き合うほど余裕ないねん。
2020/02/10(月) 09:25:32.83ID:RftsI3++0
>>121
仕事受けなきゃいいじゃん
2020/02/10(月) 20:29:47.76ID:hDJC6jsQ0
>>122
いやだから受けてねーっつーの。
また嫉妬だとか僻みとかそういう低次元な話にもってこうとするのな。
そういうカスが今のカスみたいな業界構造を固定してるって話だよ。
2020/02/10(月) 20:53:06.20ID:KF1aCl9La
まあ構造を利用する側にはメリットしかなく利用される側にはデメリットしかないからな
2020/02/10(月) 21:03:20.46ID:RftsI3++0
>>123
愚痴を言いたかったわけね
126デフォルトの名無しさん (ファミワイ FFf3-63s9 [210.248.148.152])
垢版 |
2020/02/12(水) 17:44:09.83ID:qeZ/flP7F
『AI vs教科書が読めない子どもたち』のアマゾンレビューに
こんな否定的な書き込みがありました。

>事実として、最近、読解力においても機械は人間に勝つようになりました。したがって、この本はかなり多くの部分を書き直さないと、嘘だらけとなるでしょう。

読解力で機械が人間に勝つようになったという
肝心のソースが全く示しておりません。
ぜひ教えてほしいところです。
127デフォルトの名無しさん (ワントンキン MM5e-Pze0 [219.165.57.156])
垢版 |
2020/02/12(水) 17:56:52.05ID:xGBbYOmDM
本気で言ってんのか?
騒がれまくりだろ。。。
2020/02/12(水) 19:24:47.86ID:pE+9SM9Qa
読解力とやらを定義すらできていないのが現状なのだから勝ち負けなんて語る段階には達していない
2020/02/12(水) 20:18:50.33ID:518S0mOTa
少なくとも国語の入試問題ではすでに大半の人間は負けている
2020/02/12(水) 20:34:57.76ID:TaBhztji0
なんらかのベンチマーク化を行った時点で問題の本質から乖離してしまうんだと思う。
131デフォルトの名無しさん (ワッチョイ 229c-Pze0 [61.125.255.57])
垢版 |
2020/02/12(水) 21:32:09.09ID:FHbXvwvv0
本質てなんだよ
テスト通ればいいんだよ
2020/02/12(水) 21:54:45.02ID:taT0rGMB0
>>126
とりまglue nlpでググってごらんよ
2020/02/12(水) 22:11:15.38ID:Pu9RddSK0
>>125
愚痴というか、いつそっちに落ちるかわからんからそれまでにまともになってろと思うわけだ。
はっきりいって今日本にいる限り安心なんてもんはない。
2020/02/13(木) 08:46:13.89ID:WKLomT2v0
Turing-NLG: A 17-billion-parameter language model by Microsoft
https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/

理解力=言語モデルになるのか
2020/02/13(木) 20:54:37.02ID:7qkn8LvZ0
このスレに機械学習エンジニアいる?
2020/02/13(木) 20:57:02.34ID:Igu+5SpN0
まだ半年だがノシ
2020/02/13(木) 21:01:39.41ID:HtRTFoQ3M
ETL係やってる
2020/02/13(木) 21:12:54.05ID:T5TlK5HS0
機械学習エンジニアとは?
2020/02/13(木) 21:21:44.89ID:7qkn8LvZ0
>>136
どんな仕事してるの?
言える範囲で教えてほしい。
2020/02/14(金) 07:41:25.86ID:iK0b55EB0
ひみつ
2020/02/14(金) 08:38:56.01ID:YkhixP1T0
いません
142デフォルトの名無しさん (ワントンキン MM5e-Pze0 [219.165.57.156])
垢版 |
2020/02/14(金) 11:26:51.53ID:NSTR9jEfM
みんなの心の中にいます
2020/02/14(金) 11:43:55.04ID:ApdIcKC6r
あの手この手でアノテーション
144デフォルトの名無しさん (ワイーワ2 FF3a-2nKm [103.5.140.139])
垢版 |
2020/02/14(金) 13:07:16.96ID:a5iC3cHyF
読解力を統計で競うとそりゃ人間が負ける
人間には偏差値50以上も50以下も均等に存在することになってるが
機械なら偏差値50以下のバカソフトは処分出来るからな
2020/02/14(金) 13:22:14.20ID:bqhRqjsOM
センター試験の現国満点余裕になったの?
2020/02/14(金) 13:25:16.04ID:uyTXek+40
古文がマジでストレスだったな
覚えゲーさせられてる
2020/02/14(金) 15:25:42.82ID:YkhixP1T0
偏差値50以上と以下は均等には存在しない(笑)
2020/02/14(金) 23:23:35.64ID:Ir3uKLPna
>>147
受験しない人がいるから50以下の人の方が多いという主張?
2020/02/15(土) 00:56:22.81ID:e1hgbqCsa
偏差値の計算方法知ってるなら50以下と以上の人数が等しいなんて全く保証されないことぐらい容易に分かる
150デフォルトの名無しさん (ワッチョイ 229c-gtE8 [61.125.255.57])
垢版 |
2020/02/15(土) 07:55:04.37ID:s+xmHs2W0
>>126
GLUEなどのベンチマークで人間越えを果たした
https://udemy.benesse.co.jp/ai/bert.html
151デフォルトの名無しさん (ワッチョイ 5701-4LPN [220.23.242.247])
垢版 |
2020/02/15(土) 21:04:53.33ID:fyzzIrjJ0
質問させて下さい。
matplotlibで時系列データをグラフにしているんですが、
csvデータからpandasで読んで日時をpd.to_datatimeでdatetime型に変換して、
x軸にax.xaxis.set_major_formatter(mdates.DateFormatter('%m/%d\n%H:%M'))
こんな感じで2行で日時を表示させているのですが、日付変更時(つまり0時)
の時だけ日付を表示して他は時分だけの表示にしたいのです。 
わかる方居ますでしょうか?
2020/02/15(土) 21:18:06.16ID:fyzzIrjJ0
151です… スレチっぽかったですね。
2020/02/15(土) 22:02:35.25ID:1l3NQYmFM
>>151
minor firmatterで日付無しを作ればよくない
知らんけど
2020/02/15(土) 23:02:49.27ID:fyzzIrjJ0
>>153
はい…それも試してみたんですが上手く行かなかったんです…
ConciseDateFormatterというのに手がかりがありそうな…
155デフォルトの名無しさん (ワッチョイ c610-25R9 [153.131.102.129])
垢版 |
2020/02/16(日) 07:19:28.23ID:neAlzan/0
>>151

ax.xaxis.set_major_formatter(mdates.DateFormatter('%m/%d\n%H:%M'))

mdates.DateFormatter('%m/%d\n%H:%M')
の代わりに自分でdefした関数を指定すればいいんじゃないの?

mdates.DateFormatter('%m/%d\n%H:%M')
の出力を引数にとって、その関数内で00時かどうかで
処理を分岐して文字列を返す
2020/02/16(日) 09:06:08.26ID:ato4rXxB0
>>153
>>155
返信ありがとうございます
自分も00時判定を考えましたがminor_locatorと
minor_formatter(mdates.DateFormatter("/n%m/%d"))
を併用して表示できました!
3日もググり地獄だったので助かりました!
2020/02/16(日) 19:47:25.66ID:8mDLSa/v0
日本は中間採取好きだからなー
至るところに蔓延していて末端には金が行かないようになっている
アメリカの派遣はプロフェッショナルを高い金額で貸し出すというスタイルじゃなかったっけ
なんで派遣社員は高く付くってのが一般認識で
中国も日本よりかは厳しかったんじゃないか

蔓延している業界は絶対に廃れて行くんで行かない方がいい
業界として終わっている
158デフォルトの名無しさん (ワッチョイ 8797-jFyl [182.171.246.142])
垢版 |
2020/02/16(日) 19:50:55.53ID:4YtH0n6X0
>>99,114
プログラマだけど結構Jupyter使うよ
シェルでパイプでするにはややこしすぎるログの解析や、Pythonでライブラリ使うときに
使いかた探るのに使ったりする。
VSCodeだけで書くより明らかに生産性高いよ。3倍ぐらいになった。
2020/02/16(日) 20:05:29.13ID:qqTlPIXlM
ワイはipythonつことる
EDAでバーっとグラフ見たいときくらいjupyter
2020/02/16(日) 20:37:04.68ID:+05Ierg+0
E資格って取ったら一目置かれる?
2020/02/16(日) 20:52:15.39ID:kREUnXku0
9目置かせてくれる
2020/02/17(月) 13:26:29.51ID:y136Nw0W0
>>158
なるほど、君がvscodeでソース書くと1/3の生産性になるわけだね。
2020/02/17(月) 14:14:33.47ID:juDpBUMw0
jupyterとか馴染めんわ
便利だなぁとは思うけどあれメインの人ってプログラムが本職じゃない人が多いイメージ
164デフォルトの名無しさん (アウウィフ FF1b-BDVY [106.171.84.223])
垢版 |
2020/02/17(月) 15:38:48.03ID:r2qRMPZDF
インタラクティブシェルに毛が生えたようなもんだ
数行程度ならそれでも良いけど
あれで数万行も描くやつはおらん
2020/02/17(月) 16:04:13.27ID:Fhkd2oA9M
200行なら今眺めてるぜ。こいつを普通なバッチに直すのが俺の仕事さ
2020/02/17(月) 16:08:32.00ID:juDpBUMw0
>>165
雑用ワロタ
2020/02/17(月) 16:14:16.63ID:Fhkd2oA9M
DSの人、普通のエンジニアリング弱いんだよねえ
2020/02/17(月) 16:30:07.86ID:y136Nw0W0
弱いくせに妙に偉そうなところが問題をさらに複雑にしとるんだよな。
2020/02/17(月) 16:34:11.77ID:Fhkd2oA9M
特徴量の世界だけで生きていて欲しい。
そのうち権限剥奪されて行くと思うよ
打ち合わせにもワシらも呼んでな
170デフォルトの名無しさん (ワントンキン MM5e-Pze0 [219.165.57.156])
垢版 |
2020/02/17(月) 16:57:12.35ID:9bDjGnEgM
うすら禿のなんたらいうgglのdsが言うにはautomlで十分らしいじゃん
2020/02/17(月) 19:02:56.00ID:khP0iz4XF
jupyter使ってDS業務を日常的にこなしてる上で文句言ってるなら分かるがどうせほとんどjupyterなんて触ってないような人がグチグチ言ってるんだろうなとしか思えない
2020/02/17(月) 19:04:17.97ID:juDpBUMw0
ディープラーニングの人はどちらかというと
コードバリバリの人が多いイメージ
統計学よりの人はほぼCLI使えない人が多いイメージ
2020/02/17(月) 19:26:24.17ID:Fhkd2oA9M
画像処理系の人はC++バリバリだね。
広告系がjupyterが多そう
医療製薬とかもかなあ
2020/02/17(月) 19:39:37.14ID:r6355ku70
CLIやSQLを使わないでデータ分析って罰ゲーム?
ただでさえ、前処理している時間の方が長いのに
2020/02/17(月) 20:12:36.57ID:1Yo+DqwRa
データ分析者より俺の方が優れているに決まっているという結論ありきで無理矢理論理展開して
データ分析者はCLIを使えないことにして「ほら、俺の方が優秀でしょ?」と言いたいだけの駄文
2020/02/17(月) 20:32:37.71ID:y136Nw0W0
全く逆で偉そうに書きなぐったソースを押し付ける輩が多いから批判されるんだぞ。
(自分、コーダーじゃないんでみたいなカスみたいな言い訳しつつな。)
2020/02/17(月) 21:02:41.86ID:ot4NKtGFd
そもそもjupyter使うのとCLI、SQL使うのは相反することじゃないだろ

jupyterは詳細なメモと結果とコードを同一ファイルで共有できるツールであってあれで大量のコードを書くアホなんて居るのか?
2020/02/17(月) 21:03:57.01ID:juDpBUMw0
まあもっと言語側が進化の余地があるんだろうね
前処理とかもっと簡単にできる言語なりフレームワークなりがあっても良い
現状エンジニアリングしなきゃデータ分析できないから
2020/02/17(月) 21:22:03.39ID:y136Nw0W0
全く関係ない。
再現性あるようにきっちり整備する気があるかないかだけ。
馬鹿にどんなシステム使わせても同じようにど汚い状態で渡すだけだから。
そういう意味でgitのようなバージョン管理でクソコミット渡したやつがわかるように
しとくってのが大事なわけよ。
2020/02/17(月) 23:53:24.76ID:Fhkd2oA9M
ホント、データとか手順書、スキーマ情報無くすんだよね
学生じゃねーんだから、gitなりでの構成管理やれよ
引き継ぎもできやしない
日付やr1,r2とかファイル名につけるの卒業しろ
2020/02/17(月) 23:56:29.76ID:Fhkd2oA9M
化学とか生物系の実験研究員なら、整理整頓、データ、資料管理、学生までに身に着けてるやろ
DS界ヌルすぎ
2020/02/17(月) 23:57:42.66ID:AkNX8dYW0
>>181
おまいは教育に恵まれた
幸運を感謝汁
2020/02/18(火) 00:11:13.34ID:3v1Ek71E0
>>181
この業界は再現性がないのはザラですからね
そっちの分野ほど確立されたものはないです
2020/02/18(火) 00:23:30.33ID:II4zMfl3a
自分の周りが馬鹿だらけだから他の人の環境も同じだろうなどとは考えてはならない
類は友を呼ぶということで、君もそのバカと同類だというだけのこと
2020/02/18(火) 00:29:51.13ID:2AC9Ct1n0
どっちもどっち論で泥仕合に持ち込んで誤魔化そうとしてるのはよくわかるわ。
残念ながら馬鹿ばっかの会社もそうでない会社も見てきたわけで、
比較するとソースやデータをしっかり管理してるかどうかって
そういうツール選択にもろに出てくるんだわ。
2020/02/18(火) 03:12:50.54ID:KrTQ4Cqc0
>>99
大学発ベンチャーは会社としては貧弱でいい加減なのは普通。
ほとんどがそのうち消える
2020/02/18(火) 10:23:28.83ID:Un8pxD8/0
>>181
ピペド乙
2020/02/18(火) 13:06:07.23ID:YrgEwpk7H
VS CodeもJupiterもどっちも使うでしょ…
2020/02/18(火) 13:12:12.04ID:RVONces2M
ピペドという別の問題もあるのか。どこも大変だね
2020/02/18(火) 13:45:17.06ID:2AC9Ct1n0
jupyter使ってもいいけど再現性確保しろよって話だな。
まあこういってもそんなこと気にしないで人様に迷惑かけ続けるんだろうが。
2020/02/18(火) 14:27:20.15ID:JWsk0SFGa
再現性って、jupyter notebookに書いてあるままやれば再現するでしょ
それで再現しないなら問題はjupyterとかとは関係ないところにあるのでjupyter云々言ってるのはナンセンス
2020/02/18(火) 14:34:01.67ID:RVONces2M
上から順に実行して最終確認してくれればいいんだけど、遡って再実行したりしてるんじゃないか
2020/02/18(火) 14:46:04.89ID:o++xd8tHr
ありがちだね

1人で試行錯誤してる時はそれでも良いけど最後に整理してrestart kernel and run allして確認しとかないと

そんなことでトラブル起こす人は別のツール使っても同じだと思うけどな
2020/02/18(火) 15:44:56.17ID:3v1Ek71E0
上から実行したらNameError
これほんま多いんですわ
2020/02/18(火) 17:57:44.52ID:YrgEwpk7H
それはJupiterじゃなくてその人の問題でしょ
196デフォルトの名無しさん (ワッチョイ c610-25R9 [153.131.102.129])
垢版 |
2020/02/18(火) 18:35:03.51ID:xO5zEIRT0
>>193
変数を実行に必ずクリアする仕組みのツールなら予防できる

利便性が低くなるけどな
その辺は組織内のプロセス改善レベルによる
197デフォルトの名無しさん (ワッチョイ c610-25R9 [153.131.102.129])
垢版 |
2020/02/18(火) 18:36:36.59ID:xO5zEIRT0
>>195
セキュリティ事故とか自動車とか飛行機とか人のミスが結果に及ぼす影響を小さくするような仕組みを入れてあるものもある
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。