【統計分析】機械学習・データマイニング30

2021/01/01(金) 09:10:55.46

!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に１つずつ減るので、減ってたら３回に増やしてたてること。

機械学習とデータマイニングについて語れ若人

＊機械学習に意識・知能は存在しません。
　　人の意識に触れたい方はスレ違いです。

■前スレ
【統計分析】機械学習・データマイニング29
https://mevius.5ch.net/test/read.cgi/tech/1597882603/
-EOF-

VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured

2021/08/11(水) 15:54:21.73

>>911
(o´･ω･`o)どう得れば良いの？

2021/08/11(水) 16:03:44.47

>>912
実は勉強するだけでいいんだ

2021/08/11(水) 16:07:34.59

先ずは全裸になります

2021/08/11(水) 16:20:47.36

学習データの選び方によって結果が異なるとか?

2021/08/11(水) 16:49:21.51

次に窓を開けます

2021/08/11(水) 18:15:56.01

うちは女性も多いってレスが無いところからするとやはり普通は男性が多そうだね。
転職活動してても女性は一人しか見たことがない。

>>899
人事に聞いた限りじゃそういうのはなさそう。今回の公募は応募者全員が男性だったそうな。
今回結局誰か採用したのかどうか結果は知らんが。

>>902
というより工学、数理、ITって一般的に女性より男性の方が得意だからというのが大きいと思う。
生物系以外の理系職はどれも男性が多いね。

>>907
いろんな会社に話を聞くと会社によってだいぶ違う気がする。
データ整備と分析で人員を分けていたり。
扱うデータの種類でも違うんじゃないだろうか。
例えば画像解析だと認識精度が重要である一方で精度を出せるスキルのある人は限られてそうで、
データ整備よりも精度を上げる仕事が重要になるんじゃないかと想像してる。
自動運転の研究なんかは日々精度を上げるための研究をしてるイメージ。知らんけど。

kaggleはホスト企業が精度を上げるアイデアをコンペを通して募集する場だね。企業からすればある種のクラウドソーシングでしょう。
だから入賞者には企業からそれなりの報酬が払われ、報酬を得るにはソリューションの説明が義務付けられてる。

2021/08/11(水) 19:23:33.11

>>915
あー、片寄ってるのかも。。。

2021/08/12(木) 15:53:15.16

テンソルの次元が間違ってた

2021/08/13(金) 10:22:01.47

nnで遊んでてどテンソルの次元が分からなくなることがあるんだけど皆さんそう言う苦労感じることはないの？

2021/08/13(金) 22:10:35.40

kerasだと間違わないけど生のtensorflowだとやらかし易いのかな

2021/08/14(土) 04:11:47.31

テンソルの次元を型として扱ってほしい時はあるよね
pythonだと型がふにゃふにゃだから仕方ないが

2021/08/14(土) 10:10:41.67

pytorch使ってるけど
fcに繋げるときに次元計算するの大変

2021/08/14(土) 10:15:40.32

LazyLinearがあるでしょ

**デフォルトの名無しさん** · 2021/08/14(土) 10:58:01.55

テンソルといえば、Python (つーかNumpy) の多次元配列が使いやすい上に速過ぎる

まあNumpyの線形代数ライブラリがC++とかでビルドされてるってだけだが、それにしても速い

問題が全部線形代数の言葉で記述される限りは、並のプログラマC++とかFortranでコード書くメリットほぼないね

2021/08/14(土) 22:58:37.25

NumPyは生のCPythonでの演算に比べて高速だけど、それでもボトルネックになり得るから、精度は落ちるがPyTorchのテンソルでGPUに計算させるね
CuPyというものも一応あるが

2021/08/15(日) 14:28:35.97

CPUよりGPUの方が速いっていうのはそりゃそうだろとしか
>>925とはレイヤの違う話

2021/08/15(日) 15:47:17.10

＞　お前は毎朝起きるたびに俺に負けたことを思い出すよ＾＾

あー、ホンッとに思い出すなあ（笑）
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い！」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君！

クソチョンw

2021/08/15(日) 20:53:39.40

cupyはサイズが小さいテンソルだとcpuより遅いみたいだけど

2021/08/20(金) 12:10:40.90

方策勾配法で学習させたら累積報酬が伸びなくなったんだけどどうしたらいい？
https://i.imgur.com/JburTbf.jpg

2021/08/20(金) 12:49:52.15

>>930
状態の保持が間違っていたりする？
変な曲線になるんだよね。

2021/08/20(金) 20:03:47.74

>>931
ありがとう角度を三角関数で分解したり無理矢理スケーリングしたらなんとか学習進んでそうな感じする

2021/08/22(日) 04:03:30.28

Rustのメモリ安全性はボローチェッカーによって担保されているが、
Nimと比較してRustはタイプ量が多い事により限りなく低い生産性と
C++のような高い難読性、超巨大なバイナリ生成性能を兼ね備えています

Nimはバージョン1.5.1でRustのボローチェッカーに似た「View types」が実装されれば、
GC無しのView typesで参照の有効性を検証することによってメモリ安全性を保証しつつ
限りなく抑え込まれたタイプ量で高速化したCのソースコードを吐き出せます

Nimソースコード ==nimコンパイラ==> Cソースコード ==Cコンパイラ==> バイナリ

なので、nimコンパイラが通った時点でメモリ安全性が担保されませんか？

Nimの実験的特徴
著者：アンドレアス・ルンプ
バージョン： 1.5.1
http://nim-lang.github.io/Nim/manual_experimental.html

Nimは限りなく抑え込まれたタイプ量で高い生産性とPythonのような高い可読性を実現し
ているにもかかわらず、高速なCのソースコードを吐き出せるのでC言語でリモートワーク
されている方は割り振られた仕事が早く終わっても終わってないふりをして怠けることができる

「怠け者とはこうあるべきだ！」と言うとても大事な事を Nim は我々に教えてくれます

2021/08/22(日) 09:13:36.46

>>1
kaggleやり始めた
全然順位上がらない😭

2021/08/22(日) 18:24:57.02

東京都のコロナ感染者数の予測をやっている人いませんか？

もしいるとして、どれくらいの精度ですか？

2021/08/22(日) 18:56:17.98

測定データに大きな偏りがあるため予測不能
なんか数字が出たとしても、誤差さえも見積もり不能

2021/08/22(日) 19:08:22.91

カコ習慣の平均とを使用するとか工夫すればある程度できるんでね？
でも予測ってどんなん？
出せても感染者の予想分布かな

2021/08/22(日) 19:09:10.38

過去1週間の平均等

2021/08/22(日) 19:12:35.97

統計の基本中の基本だけど
偏ったサンプルデータを分析に使うと
まともな結果は導けない

2021/08/22(日) 19:19:46.61

実務でまともなデータなんてあまり無いよ

そんなデータからなんらかの成果を出すのが腕の見せ所なんだけどね

2021/08/22(日) 21:24:36.63

そうだけど糞データではどうしようもない
後々面倒なことになる

2021/08/22(日) 21:47:00.98

Rustのメモリ安全性はボローチェッカーによって担保されているが、
Nimと比較してRustはタイプ量が多い事により限りなく低い生産性と
C++のような高い難読性、超巨大なバイナリ生成性能を兼ね備えています

Nimはバージョン1.5.1でRustのボローチェッカーに似た「View types」が実装されれば、
GC無しのView typesで参照の有効性を検証することによってメモリ安全性を保証しつつ
限りなく抑え込まれたタイプ量で高速化したCのソースコードを吐き出せます

Nimソースコード ==nimコンパイラ==> Cソースコード ==Cコンパイラ==> バイナリ

なので、nimコンパイラが通った時点でメモリ安全性が担保されませんか？

Nimの実験的特徴バージョン1.5.1
http://nim-lang.github.io/Nim/manual_experimental.html

第二プログラミング言語として Rust はオススメしません Nim をやるのです
https://wolfbash.hateblo.jp/entry/2017/07/30/193412

Nimは限りなく抑え込まれたタイプ量で高い生産性とPythonのような高い可読性を実現し
ているにもかかわらず、高速なCのソースコードを吐き出せるのでC言語でリモートワーク
されている方は割り振られた仕事が早く終わっても終わってないふりをして怠けることができる

「怠け者とはこうあるべきだ！」と言うとても大事な事を Nim は我々に教えてくれます

2021/08/23(月) 11:25:28.32

optunaユーザーいる？
いまいちじゃないコレ？

2021/08/24(火) 14:58:57.23

>>935
コロナ感染者の予測を出したいなら、用いられた検査方法と検査キットの情報は不可欠
測定誤差が大きすぎ

2021/08/24(火) 16:23:56.10

回しかた足りないのかな？
3000じゃ足りない？

2021/08/24(火) 21:05:22.63

https://news.mynavi.jp/article/20210823-1954227/
東芝など、学習済みAIを用途やハードの仕様に合わせて展開できる技術を開発
2021/08/23 20:28

DNNのサイズをその重要度を見分けて削る事で
小さなエッジデバイス上でも性能を落とさずに
AIモジュールを動かすことができる、と

2021/08/25(水) 22:42:46.04

塩野義製薬　AI創薬技術によるマルチターゲットに対する創薬を目指した米InveniAI社との業務提携について
https://www.shionogi.com/jp/ja/news/2021/04/210428.html

塩野義、創薬研究における開発候補化合物の探索にAWSクラウドの利用を開始
https://classmethod.jp/cases/shionogi/

塩野義製薬、新型コロナ重症化抑制の候補薬で米バイオエイジ社と契約
https://www.nikkei.com/article/DGXZQOHD268OV0W1A120C2000000/

製薬業界の丸ごとAI化を目指す取り組み(LINC)が日本でスタート　塩野義、理研、京都大学、NEC等
https://news.mynavi.jp/article/20171013-okuno_vinas2017/

＞富岳スパコンを使った分子化合物シミュレーション
＞AI(機械学習)を使った、分子動力学計算の最適化　AIを使った分子自動設計　タンパク質立体構造の予測
＞知識ベース、過去の分子ビッグデータを整理し、解析、探索するデータサイエンス技術

2021/08/26(木) 08:54:20.20

ごめん、optunaちゃんとしてた

2021/08/27(金) 08:05:38.52

検定の考え方と機械学習(特にdeep learning)ではかなり考え方に差がある。

2021/08/30(月) 02:57:16.24

mecabより良い解析器って出てこないのかしらん？

2021/08/30(月) 09:31:33.03

mecabの何が不満?

2021/08/30(月) 11:41:39.31

sudachi

2021/08/30(月) 13:28:14.44

メカブは体にいい

2021/08/30(月) 19:26:51.33

>>951
使っている手法がcrfベースと古いから

2021/08/30(月) 20:53:05.50

>>954
手法が古くても必要な結果を得られたら問題無いんじゃね？

2021/08/30(月) 20:58:58.02

バイトペアエンコーディング全盛の今、形態素解析なんて時代遅れだよねと思いきや、Whole Wordなんて手法も出てきてやっぱり重要だっていうね

2021/08/30(月) 21:56:49.19

>>955
ビッグデータ処理してると数パーセントの精度の違いが大きく出てくるから
なるべく高精度のが欲しい

2021/08/30(月) 21:59:20.42

松尾研の要約システム、ひどいな

2021/08/30(月) 22:00:46.32

精度が売上に直結するならいいけど
弱い相関ならシンプルなロジック選んでしまうな

2021/08/30(月) 22:13:34.30

40年以上前から言われているけど
何文字以内、何行以下の要約というのは
あまり意味がない。必須な部分がかけてしまうかもしれないし
余分な部分が残ってしまうことがある

2021/08/30(月) 22:23:27.16

愚痴みたいになるけど形態素解析とかIMEみたいな古典的な分野ばっかやりすぎて
統計的機械学習やディープラーニングへの対応が遅れて
世界に取り残されたのが日本の自然言語処理のアカデミアってイメージ
アテンションやトランスフォーマーみたいな仕組みが
日本から出てこなかったのは悲しい

2021/08/30(月) 23:06:53.06

>>957
それなら古いからじゃなくて必要な精度を得られないからってことで
精度に関わる他の部分を変えることで目的を達成できるかも
何がその目的達成に影響するのかは判らない

2021/08/31(火) 04:15:10.73

>>950
spaCyかな。利点はGPUを使えるので圧倒的に早いこと。欠点はPython依存。

2021/08/31(火) 04:39:38.87

>>958
個人的にはあれはよくできてると思う。
まず、要約はextraction法とabstraction法の2種類がある。
extractionはbowを作って単語の頻出度で統計処理することでウェイトの高いセンテンスを抽出する。
一方、abstractionは要約済みの学習データをseq2seqで機械学習させることで、要約エンジンを作る。
松尾研のベンチャーが作ったのは、後者のabstractionの方で、日本語でabstractiono方式の要約エンジン
というのはほとんど見たことがない。
ただ、実際に売れるかどうかは別。
この種のシステムは、を企業向けに販売しようと思ってもクラウドでAPIで提供する方式の場合だと
企業は内部情報が外部に流出することになるのでまず100％導入はしない。
一般的なのは、企業が利用してるクラウドの中にシステム用のサーバーを立ち上げるか、
企業のイントラネットの中に専用サーバーを立ち上げることなんだが、
これをやるとSI業者には勝てない。
また、下手にこの領域に踏み込むとSI 業者が海外製の要約エンジンを日本語化して販売
を始めたりするので、敵を誘い込むことになる。

2021/08/31(火) 07:41:34.77

>この種のシステムは、を企業向けに販売しようと思ってもクラウドでAPIで提供する方式の場合だと
>企業は内部情報が外部に流出することになるのでまず100％導入はしない。

用途で言えば内部情報より外部の公開情報を要約してリサーチ等に使う方が多そうな気がするが。
そうでなくても、契約文書をチェックするサービスなんてのも商売になっているくらいだし。

2021/08/31(火) 14:21:53.09

optunaで指定するパラメータの範囲はどう決めれば良いの？

apiにパラメータの取りうる範囲が1 <= p < ∞とあるとき

2021/08/31(火) 15:50:48.02

1と∞で二分探索

2021/08/31(火) 19:28:12.45

無限の半分は・・・無限!!

2021/08/31(火) 19:30:49.23

>>966
無限大に発散するような関数はまずないはずだけどどういう式？

2021/08/31(火) 20:06:05.81

exp

2021/08/31(火) 20:07:05.73

表からともったら裏、裏かとと思ったら表

2021/08/31(火) 20:56:01.05

>>969
xgboostのパラメータ
reg_alphaとか

2021/09/04(土) 02:49:35.61

>>877
Rejected internal applicants twice as likely to quit
doi.org/10.5465/amj.2018.1015

2021/09/04(土) 04:02:08.87

>>965
いずれにしてもSeqモデルによる実装は簡単だから、要約済みの学習データさえ準備できれば
要約システムは簡単に構築可能。無料で出す分にはみんなは面白がって使うだろうけど、有料提供
となると、かなり困難に直面するんじゃないかと思っただけ。
Seqモデルは、かなり一般化してきてるので、NLP専攻の学卒者だったら、十分に構築は可能。
これが機械翻訳とかだと、かなり膨大な学習データが必要となるので、参入障壁になるが、
自動要約だと、元の学習量もしれてるので、NTTデータや富士通あたりだと多分、簡単に作れる。
また、要約の精度は学習データに依存するので、どこまで精度の高いデータを作れるかは、
最終的には開発元の資本力によって決まることになる。

2021/09/05(日) 22:01:26.67

松尾研で文章を3つの文にまとめるアプリができてましたが
これを任意の文の数にまとめられて更に
「動作を文章にするアプリ」と組み合わせることで作業手順書の自動作成ができて
ひいては行動計画に関する人工知能の開発が進むといいんですがねえ

2021/09/05(日) 22:33:17.49

どうして文の「数」にこだわるの?
重要なことがその「数」以上あったらどうするの?

2021/09/06(月) 01:15:14.50

3つにする、5つにする、など試して最も妥当な説明書になっているものを最終出力出来たらいいんですがねえ

2021/09/06(月) 01:21:37.13

妥当な説明を定式化せよ

2021/09/06(月) 08:50:13.28

>>975
できるんじゃない？

2021/09/06(月) 09:29:44.52

重要な項目が5つあって、3つの文にせよ
という場合は、一つの文に2つ盛り込むとか?
なんだか本末転倒だなあ
重要な項目がいくつあるか分からなくなるじゃないの

2021/09/06(月) 10:59:46.00

重要な項目の数に合わせて文の数も調整できたらなあ
更にはそれぞれの文の構造化まで自動化

2021/09/06(月) 11:36:22.35

例えば、裁判所の判決文とかは全部重要なのだそうで
要約できないらしい。法曹関係者が要約が下手なのは
そういう理由もあるらしい

2021/09/06(月) 16:50:04.99

ほう、そうかい

2021/09/06(月) 21:34:45.15

マニュアルを要約して
手順を飛ばされてもやだな

2021/09/07(火) 08:21:33.30

だが待って欲しい
その手順は本当に必要だったのだろうか

2021/09/07(火) 09:23:15.96

いやちょっと待って欲しい
そもそも三つの文に…

2021/09/07(火) 12:15:41.45

富士通あたりがやり出しそう(笑)

2021/09/07(火) 13:03:13.11

試しにここのテキスト入れてみたら
めちゃくちゃ的外れな要約が出てきた
どうやら掲示板は向いてないらしい

2021/09/07(火) 20:01:11.19

新聞記事も読み終わって何がなんだかわからない
という記事が多いから、要約しても無駄だな

2021/09/12(日) 11:08:30.42

＞　お前は毎朝起きるたびに俺に負けたことを思い出すよ＾＾

あー、ホンッとに思い出すなあ（笑）
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い！」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君！

クソチョンｗ

2021/09/22(水) 19:51:03.76

リッジとラッソ回帰をうまく説明するためのデータセットて何かある？

勉強会の資料で探すてる
ボストンの住宅価格でやると効果わかりにくいからその他でいいのおすえて

2021/09/23(木) 12:44:23.64

次スレここの再利用？
https://mevius.5ch.net/test/read.cgi/tech/1578890891/

2021/09/26(日) 01:33:41.18

次スレ
【統計分析】機械学習・データマイニング31
https://mevius.5ch.net/test/read.cgi/tech/1632587566/

2021/09/26(日) 01:34:31.80

スカラー倍

2021/09/26(日) 01:36:40.35

みっつの数に意味はない
ただの経験則

2021/09/26(日) 01:41:50.83

アルタナティブ

2021/09/26(日) 01:42:53.67

🉑

2021/09/26(日) 01:44:07.46

(*´∀｀*)

2021/09/26(日) 01:44:53.74

(*´∀｀*)

2021/09/26(日) 01:45:22.39

(*´∀｀*)

**1001** · Over 1000

このスレッドは１０００を超えました。
新しいスレッドを立ててください。
life time: 267日 16時間 34分 27秒