【統計分析】機械学習・データマイニング30

2021/01/01(金) 09:10:55.46

!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に１つずつ減るので、減ってたら３回に増やしてたてること。

機械学習とデータマイニングについて語れ若人

＊機械学習に意識・知能は存在しません。
　　人の意識に触れたい方はスレ違いです。

■前スレ
【統計分析】機械学習・データマイニング29
https://mevius.5ch.net/test/read.cgi/tech/1597882603/
-EOF-

VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured

2021/03/07(日) 08:34:26.08

小猿ラーニング

2021/03/16(火) 14:48:06.49

第4回自動翻訳シンポジウム～自動翻訳と翻訳バンク～https://www.smbc-card.com/nyukai/magazine/knowledge/visa_touch.jsp

本日開催

2021/03/16(火) 15:42:31.98

Visaのタッチ決済とは？使い方やおすすめカードを紹介

2021/03/16(火) 15:57:26.05

>>295
せっかくだから自動字幕も付ければいいのに

2021/03/16(火) 16:42:39.23

>>297
右下の手話の同時通訳も頑張れば3 D モデルで自動生成できるよね

2021/03/18(木) 11:45:35.73

人工知能でジミー大西を再現　NTTドコモ
https://panora.tokyo/archives/22261

チー牛の発想(笑)

2021/03/20(土) 17:10:12.22

「レベル4」と呼ばれる高度な自動運転の技術を2025年ごろまでに大都市などの市街地で実用化
https://www3.nhk.or.jp/news/html/20210320/k10012925431000.html

やっとレベル4だってさ

2021/03/20(土) 17:33:53.12

横断しようとしている歩行者がいたら停止する
法定速度を守る
道路が汚れていたらどうするか
ものが落ちていた場合、どういう場合に無視するか

人間でも難しい問題が山積み

2021/03/20(土) 18:17:09.51

高齢者の運転より安心できそう

2021/03/20(土) 20:00:01.63

日本中の道路を自動運転用に整備すればいい
たぶん20兆円ぐらいかかるだろうけど
ちょうどいい公共事業になるだろう

2021/03/20(土) 20:54:34.45

道路工事にどれだけ時間かかると思ってるんだｗ

2021/03/20(土) 21:06:32.21

>>304
んー 50年くらい？(笑)

2021/03/20(土) 21:13:53.89

５０年後
「次世代形式に対応してないのでもう一回お願いします」

2021/03/20(土) 21:53:04.75

LINEの個人情報が中国へだだ洩れだった問題で
LINE「説明が十分ではなかった」ってことでいろいろ説明してたが
結局、元々そんな仕様になっていて問題はないっていう
どこが問題では無いのかっていう

2021/03/20(土) 22:40:57.48

>>306
また公共事業できていいじゃん

2021/03/20(土) 22:45:45.27

そうせずになんとかなりそうな目途が立ってるのに
さすがにだるい

2021/03/21(日) 11:23:04.89

>>307
規約に書いているのにきちんと読みもせず「そんなこと了承していない！」と怒っているだけ

2021/03/21(日) 11:27:52.31

書いてあってもダメ
書いてあると主張すること自体がダメ
現に情報の保護がばっちりだと大体的に宣伝しているから
規約にあったら悪意をもって虚偽広告したのは明白
業務停止が妥当レベル

2021/03/21(日) 12:47:02.88

>>310
チョン乙

2021/03/21(日) 13:01:32.24

ネトウヨさんは意外と騒いでないのは菅が広報でガッツリ使ってるからなんよねw
だからこそ今までLINEのばなしにしてたんだろうけれど。
あいつらはほんまダブスタ丸出しなんだわw

2021/03/21(日) 13:28:57.11

言った言わないとかどうでもいいからさっさと禁止しろよ

2021/03/21(日) 13:33:55.80

同意したわけでは決してない
不誠実さや卑劣さを知らないわけではない
社会に屈服したんだ

2021/03/21(日) 15:23:32.18

ネトウヨさんが意外と騒いでないのはLINEが韓国国家情報院が開発したもので情報が国家情報院が流れているのを知ってるからだよ
LINEを使っているのは情弱の馬鹿

2021/03/21(日) 17:32:24.00

話の噛み合ってないバカ登場

2021/03/21(日) 18:38:31.10

E資格ってのをとってみたけど
役立つかな？

2021/03/21(日) 19:44:25.11

馬鹿というのが馬鹿

2021/03/21(日) 21:29:57.83

>>318
あわしろ氏は、取るべきと言ってたぞ。

2021/03/22(月) 00:40:38.65

>>318
重要なのは論文か国際会議への投稿だと思うけど

2021/03/22(月) 21:23:39.28

E気持ち

2021/03/22(月) 21:52:03.66

7-11

2021/04/02(金) 14:21:15.67

https://diamond.jp/articles/-/266872?page=4

ここで出てくる「2020年、前述した ebmt の手法が復活して nmt の上に追加された」というのはknnmt のこと？

2021/04/04(日) 12:30:25.33

ebmtの概念は、深層学習モデル以前のSMT的ものなので、knnmtとは別物だと思う。
Google scholarで論文を探してみたが、Sumita+ebmtだと2004年くらいに
1件ヒットするだけで、恐らく、ebmt+nmtのテーマではまだ論文発表はしてない。
記事は、一般論的な書き方をしてるが、ebmtを取り込んだのはNICTの翻訳エンジン
であり、この流れが広がっていくかは別問題。
NICTのアプローチはどちらかというと、モデルパラダイムよりもデータ重視の傾向が
強い。ただし、NICのデータパラダイムは、最近Andrew Ngが提唱してるデータ
重視論とは異なり、MTの精度向上を専門辞書の整備や、分野別コーパスなど
人手をかけることで解決するというかなり泥臭いやり方となる。ebmtを持ち出したの
も多分、それと同じ。

2021/04/05(月) 07:33:24.02

うむ、見事なまでに何も判らん。
修行が足りんのか、分野が違うんだろうなぁ(遠い目)

2021/04/05(月) 11:22:07.65

論語、念仏と同じと思えば

2021/04/06(火) 16:15:11.38

ニューラルネットワークの訓練における正則化は汎化性能の向上を目的としている、であってる？

2021/04/07(水) 13:25:15.72

https://www.rd.ntt/cs/team_project/icl/lirg/innovative/research_innovative03.html
nttも成果を公表するようになってきた
ありがたい

2021/04/07(水) 14:11:05.37

グーグルのベンジオ（便所？）とかいう人が同僚二人の解雇に抗議して退職したとのことです。

2021/04/07(水) 14:42:06.86

>>330
マジ？

2021/04/07(水) 16:15:21.42

googleさん闇落ち？
ちょっと前にも解雇騒動あったでしょ

2021/04/07(水) 17:59:45.81

reddit見る限り、ググルのことを陰謀を企む悪の組織と誤認してる電波が少しいて、
ググルを叩く風潮に嫌気が差してる人がほとんど

ｹﾞﾌﾞﾙの評判が悪い悪い(笑)
lecunと議論せずにひたすら上から目線で自分の論文を嫁としかツイらなかったせいで嫌われた

2021/04/07(水) 19:17:15.46

アメリカのテック系大企業は経営者に歯向かったら割と簡単にクビになるし特に珍しいことでもない
クビにしたところで世界中で優秀な人をいくらでも集められるから
日本企業は報酬もグローバルでの地位も魅力がないのでむしろ労働組合と関係良好なことをアピールする

2021/04/07(水) 19:21:43.78

優秀＝白人（プロテスタントまたはJewish）金髪碧眼将来は毛男性　ってか・・・？ｗ

2021/04/10(土) 18:13:18.66

MS&GoogleのCEOインド出身だったりするけどな

2021/04/10(土) 21:39:10.15

ちょっとこれは、かなり難しく、力をお貸しいただきたいのですが、
自分でニューラルネットワークを作ろう
https://qiita.com/takahiro_itazuri/items/d2bea1c643d7cca11352#comment-a59cd26161ee56ea1220
の記事で質問があるのですが、
なんやかんやで大体ざっとは理解できたのですが、
重みの更新式
# 重みの更新
self.w_ho += self.lr * np.dot((e_o * self.daf(o_o)), o_h.T)
self.w_ih += self.lr * np.dot((e_h * self.daf(o_h)), o_i.T)
この式の意味が本当に分かりません。
※*は、成分同士を掛けて行列積を求めるもので、np.dotは普通の行列積になります。
一応
隠れ層から出力層への重みによる偏微分
入力層から隠れ層への重みによる偏微分
の部分は読んで、まぁそうなるんだろうなとざっと理解でき、
【深層学習】誤差逆伝播法｜バックプロパゲーション
ttps://youtu.be/X8hK4ovQoLg
この動画を見たりしたのですが、
まず１つ目の
self.w_ho += self.lr * np.dot((e_o * self.daf(o_o)), o_h.T)
からよく分かりません。
可能であれば、複数の式になって良いので、スカラーによる計算式で示して頂きたいのですが・・・なぜこのようになるのか、を。
たぶん、
隠れ層から出力層への重みによる偏微分
入力層から隠れ層への重みによる偏微分
にある「重みの式」に代入していくような感じだとは思うのですが・・・。

2021/04/11(日) 11:31:48.34

>>337
そのQiitaの記事のコードの上の方に数式は具体的に書かれている訳だけども、
まずそっちは理解しているのかな？
理解できてないのであればまずは線形代数をしっかり学ぶ必要があると思う

2021/04/11(日) 21:23:07.14

>>337
dWの微分を行列で表すとそうなる
ほとんどの本ではそこは省略されてることが多い

2021/04/11(日) 21:25:59.74

>>338-339
ありがとうございます

2021/04/11(日) 21:29:25.29

スカラーから行列に手計算で直すのが良い
あとミニバッチ対応だと行列以外では表現できないから
行列は必須

2021/04/13(火) 19:20:02.35

経営者に歯向かうって
日本の95%ぐらいが同族企業で新しい芽はすぐ摘まれるのに
そんな歯向かう程意気込んでいる奴が居るのか？
何か反論してお前がやってみろ的流れで上げ足を取られないよう我慢較べに耐え
マイナスポイントを作らないように頑張るぐらいが
日本のサラリーマンのやる気だろ

2021/04/13(火) 19:40:11.07

>>342
突然どしたおい

2021/04/13(火) 20:34:14.37

春だから

2021/04/13(火) 21:02:28.07

はるだなぁ　┌┤´д`├┘

2021/04/13(火) 21:14:34.02

おっと意気込んで勉強してる奴が居たっぽいな

2021/04/13(火) 21:24:43.15

そんな使い捨て分野の勉強もいいが
サラリーマンなら腰巾着として生きていく道も悪い選択肢ではないぞ
方向性を間違ってしまいそうな準社畜勢が多く集まっていそうだけども

2021/04/14(水) 00:22:17.60

年収 >= 20万円 x 年齢
を満たしつつ、楽しく平穏に働きたい

2021/04/14(水) 10:53:40.16

夢見る若者ｗ

2021/04/15(木) 09:06:10.49

https://ocw.tsukuba.ac.jp/data-science/
筑波大学では、平成31年度10月より、情報教育に関する共通科目として「データサイエンス」を開講しました。
「データサイエンス」の授業では、データサイエンスの基礎的概念を理解し、
コンピュータを利用した基礎的なデータ分析技術を学ぶことを目的としています。

筑波大ではデータサイエンスが必須になった
更にその内容もデータサイエンスに留まらず
流体力学もIoTも何でもあり

もちろん地道な検定とかもやるんだな

2021/04/15(木) 10:11:09.71

>>350
良く分かんないページだ
オープンコースの説明？
ラボの説明？

2021/04/15(木) 11:31:20.39

>>350は筑波大の学生全員共通科目だな

筑波大といえば学生が授業を見るためのデータベースを
学生が独自に作ってしまったとかで最近話題になった
もっと前には、構内でしたい放題しまくったスーパーハッカーがいて
いい所に就職できたんだっけ

2021/04/15(木) 13:54:53.25

>>350
流体力学なんて大手メーカーの開発職ぐらいしか使わないぞ
やるだけ無駄

2021/04/15(木) 14:11:56.12

>>350
これって導入のところの一項目が授業一回分になるのかな？
ラボの説明聞いて終わり？

2021/04/15(木) 14:28:15.51

>>353
研究機関でも使う

そして研究機関でパラメータをひねりまわしてるのは派遣PGだったりする

2021/04/15(木) 14:30:23.81

流行りだから、学生が呼べて就職がよければOKさ

2021/04/15(木) 16:27:52.28

>>352
受賞はﾀｲｰﾎのライセンス！的なアレですな

2021/04/15(木) 16:37:07.53

https://www.youtube.com/watch?v=JUU3CWnDya8

強化学習とDNN画像認識を組み合わせて、
マンデルブロ集合の図形を自動検知、自動拡大

2021/04/15(木) 17:19:45.29

>>358
アーモンド的な模様を探して拡大？
マンデルブロを計算せずにってこと？

2021/04/15(木) 17:22:02.46

なんちゃらのなんちゃら休むににたりってやつだな・・・

2021/04/15(木) 21:36:04.06

>>358
自己相似の構造を見出すことに成功か

このスレは何でもかんでも深層学習にしなくても
統計学っぽいのも一応はいいのかな

k-means法とかクラスター分析とか位相的データ解析とか

2021/04/15(木) 21:57:49.86

深層学習は機械学習を実現する一手法に過ぎないからね

2021/04/16(金) 10:59:52.75

>>362
他の方法とは？

2021/04/16(金) 11:01:25.02

コホーネンに手を出すかw

2021/04/16(金) 11:53:04.91

>>363
昔ながらのサポートベクトルマシンとか
マハラノビス距離に基づく分類とか
ランダムフォレストとか

2021/04/16(金) 12:12:24.30

マハラノビスも最近は機械学習に
分類されるのか。orz

2021/04/16(金) 12:38:05.85

>>1
データ少ないときは深層学習じゃない方がいいの？

2021/04/16(金) 13:24:48.08

データが少ない時は決定木系でいいよ
特にテーブルデータ

2021/04/16(金) 14:17:37.95

機械学習は機械的に学習できる手法の総称でしかないので何でもあり

2021/04/16(金) 20:19:06.10

>>361
k-means はあらかじめクラスタの個数は指定しないといけないから、クラスタの個数がわからない状況では無力ですよ‥‥

2021/04/16(金) 21:52:50.72

何を当たり前のことを…

2021/04/16(金) 22:11:22.27

しっ、よしなよ
めちゃ早口で言ってるじゃん

rubyガイジ引き込む前兆だよ

2021/04/17(土) 00:53:32.90

まあしかしk-meansとかのクラスター分析ってなんか意味あんのか？って思うことはよくある。
教師なしでもPCAなんかはまだ使い道わかるけど。

2021/04/17(土) 03:24:44.86

SOM & GAN 　gaaan

2021/04/17(土) 04:06:51.97

クラスター分析は深層学習以前の統計解析が主流だった頃のNLPでよく使った。
よく使ったのが、大量の学術論文をベイズ分類器でテーマ別に分類して、分類後の
集合をさらにクラスター分析で類似文書ごとにまとめるというもの。
クラスター分析は、BOW的なデータ構造であればなんでも自動分類してくれるので
例えば画像ファイルからカラーヒストグラムを生成して、色分類ごとの色強度のデータ
ファイルを作れば、画像分類とかもできたので面白かった。
あと、クラスター分析とは違うが、最近、誰かがNLPにおける教師なし学習の
新潮流について触れて、例えば、よくあるワードベクターの2次元マップ(Word embedding)
を作り、英語とドイツ語のマップを重ねると英語とドイツ語の対訳辞書を自動生成
することも可能になるはずとか話していた。教師なし学習で対訳辞書みたいなものが
自動生成できるかもしれないという考え方は斬新だなと思った。

2021/04/17(土) 04:15:57.29

>>373
応用例を知りたいの？

2021/04/17(土) 11:10:35.27

>>373
類縁グループを定量的に調べられるのなら
分類とかだと非常に有効だね

2021/04/17(土) 12:00:18.35

k-meansとかのクラスタリングで
正常クラスタ群と異常クラスタ群に分けられる？

過去に異常検出した時のデータと正常データを区別できるようにしておいて
クラスタリングを繰り返して上手く正常と異常に分かれるクラスタ数を見つける

新たになデータが各クラスタのどれに属するか判定して
異常クラスタに属したら異常の可能性があるから
調べるとか運用停止するとかの対処をする

2021/04/17(土) 13:21:11.85

いや、分類ってそれなりの分類の尺度をユーザーが決めるから意味あるんじゃねーの？
機械学習的に分類しても、で？っていう気にしかならんのだが。

2021/04/17(土) 13:27:16.40

>>379
よく問題になるのは生物の分類だね
分類から主観を取り除くことが出来る

主観こそが大事と考える文系の為政者、経営者にとっては
邪魔な時がある

2021/04/17(土) 13:31:51.20

ある種の外れ値を認識する方法としては意味ある時もあるか。
主観がどうとか言ってるのは全く的外れにしか思わん。
逆に主観とのある種の一致性を無駄に主張する道具には使われてる印象だが。

2021/04/17(土) 13:45:29.23

外れ値は外れ値だけ正常値は正常値だけ近くなるような距離関数選んで
dbscanにかけろよ

2021/04/17(土) 13:51:53.23

コンドルはワシタカ目(もく)なのかコウノトリ目なのか
とか
フラミンゴはコウノトリ目なのかガンカモ目なのか

とかを骨格とか卵白のアミノ酸配列などに注目したりとか
色々指標を変えて学者が二百年も言い争い続けて、

結局はDNAの塩基配列をクラスター分析したら、
https://ja.wikipedia.org/wiki/%E9%B3%A5%E9%A1%9E#%E7%8F%BE%E7%94%9F%E9%B3%A5%E9%A1%9E%E3%81%AE%E7%9B%AE%E5%88%86%E9%A1%9E
コンドルはコウノトリに近いんだよ～って20年前の自称鳥類物知りが語ってたのに
結局ワシとかに近い方に入れられてしまった

2021/04/17(土) 14:41:09.11

>>383
で、その分類を誰がどう使うんだ？
そこで「正しい」とか主張することになんの意味があんの？
ってところを全く考えてなさそうな頭の悪さが見受けられる。

2021/04/17(土) 14:43:54.03

そう。。。

2021/04/17(土) 15:08:57.10

>>384
ある論争があった学問分野に
1つの解を与えた(これで解決したとは言っていない)
というだけでも恩恵はあるんじゃないかな

2021/04/17(土) 15:11:19.78

>>384
頭大丈夫か？

2021/04/17(土) 15:20:42.83

どのレベルで「客観的な分類なんて要るのか？」
と言いたいんだろうと思ってたが
古典的な哲学寄りの煽りだったのか

2021/04/17(土) 15:22:02.38

自分の頭が大丈夫かどうか
それは誰にも分からない
腹が減ったのは分かる

2021/04/17(土) 20:52:47.18

人間の恣意的な分類より
体型的で規則的な分類の方が個人による分類の違いがでないから分類結果の共有に間違いが少ない

2021/04/17(土) 22:10:48.61

サイボウズ青野社長が目指す「100人100通り」の働き方実現
https://www.nikkan-gendai.com/articles/view/money/228305
初公開！　サイボウズの自由すぎる働き方はこんなやり方で管理されていた
https://cybozushiki.cybozu.co.jp/articles/m005338.html
どうしてサイボウズは、働き方を変えられた？
「時間」と「場所」の制約がない多様な働き方
https://toyokeizai.net/articles/-/17941
サイボウズの働き方改革事例（前編）
「働き方の多様化」へ、その歩みはトップの覚悟からはじまった
https://ws.zxy.work/case/171/
サイボウズの働き方改革～働き方の多様性がチームワークあふれる会社を創る～
https://jinjibu.jp/article/detl/eventreport/2172/
サイボウズはなぜ自由な働き方ができる？　ーインターンが見た裏側には、ツールと情報共有があったー
https://www.wantedly.com/companies/cybozu/post_articles/311667
働き方先進企業が警告「パワハラ的な日本企業は在宅勤務で沈む」
https://business.nikkei.com/atcl/gen/19/00189/092800012/
「働き方を自分で選ぶ」時代へ。その多様性が責任になり、パフォーマンス向上につながる。
https://www.nice2meet.us/talk-cybozu-hr.html

2021/04/17(土) 23:03:07.99

>>370
https://qiita.com/deaikei/items/11a10fde5bb47a2cf2c2
エルボー法でも使ってみてくれ

2021/04/18(日) 01:15:06.95

機械学習で分類するには分類基準をまず人間が与える必要がある訳でそれを客観的と言えるのか

2021/04/18(日) 03:01:48.20

客観的である必要はない。
人間にとって分類しやすいかどうかのがよっぽど意味があるというのに。。
分類をなんのために行うのかさえわかってないでk-meansで出ましたとか言ってるバカは
機械学習とかやめてほしいわ。印象を悪くする。