【統計分析】機械学習・データマイニング30

レス数が1000を超えています。これ以上書き込みはできません。
2021/01/01(金) 09:10:55.46ID:a+OQlEaa0
!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に1つずつ減るので、減ってたら3回に増やしてたてること。

機械学習とデータマイニングについて語れ若人

*機械学習に意識・知能は存在しません。
  人の意識に触れたい方はスレ違いです。

■前スレ
【統計分析】機械学習・データマイニング29
https://mevius.5ch.net/test/read.cgi/tech/1597882603/
-EOF-
VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured
2021/08/11(水) 15:54:21.73ID:lYh86/4uM
>>911
(o´・ω・`o)どう得れば良いの?
913デフォルトの名無しさん (ササクッテロロ Spff-ZFfB [126.254.121.159])
垢版 |
2021/08/11(水) 16:03:44.47ID:Jt5epKHNp
>>912
実は勉強するだけでいいんだ
2021/08/11(水) 16:07:34.59ID:s3/ZPgm10
先ずは全裸になります
2021/08/11(水) 16:20:47.36ID:5Ljj9b3D0
学習データの選び方によって結果が異なるとか?
2021/08/11(水) 16:49:21.51ID:EKde279r0
次に窓を開けます
2021/08/11(水) 18:15:56.01ID:hWJ4QZBPa
うちは女性も多いってレスが無いところからするとやはり普通は男性が多そうだね。
転職活動してても女性は一人しか見たことがない。

>>899
人事に聞いた限りじゃそういうのはなさそう。今回の公募は応募者全員が男性だったそうな。
今回結局誰か採用したのかどうか結果は知らんが。

>>902
というより工学、数理、ITって一般的に女性より男性の方が得意だからというのが大きいと思う。
生物系以外の理系職はどれも男性が多いね。

>>907
いろんな会社に話を聞くと会社によってだいぶ違う気がする。
データ整備と分析で人員を分けていたり。
扱うデータの種類でも違うんじゃないだろうか。
例えば画像解析だと認識精度が重要である一方で精度を出せるスキルのある人は限られてそうで、
データ整備よりも精度を上げる仕事が重要になるんじゃないかと想像してる。
自動運転の研究なんかは日々精度を上げるための研究をしてるイメージ。知らんけど。

kaggleはホスト企業が精度を上げるアイデアをコンペを通して募集する場だね。企業からすればある種のクラウドソーシングでしょう。
だから入賞者には企業からそれなりの報酬が払われ、報酬を得るにはソリューションの説明が義務付けられてる。
2021/08/11(水) 19:23:33.11ID:lYh86/4uM
>>915
あー、片寄ってるのかも。。。
2021/08/12(木) 15:53:15.16ID:D76zE5lQ0
テンソルの次元が間違ってた
2021/08/13(金) 10:22:01.47ID:JDdJznaVM
nnで遊んでてどテンソルの次元が分からなくなることがあるんだけど皆さんそう言う苦労感じることはないの?
2021/08/13(金) 22:10:35.40ID:7BlJfnOl0
kerasだと間違わないけど生のtensorflowだとやらかし易いのかな
2021/08/14(土) 04:11:47.31ID:tSdjK28r0
テンソルの次元を型として扱ってほしい時はあるよね
pythonだと型がふにゃふにゃだから仕方ないが
2021/08/14(土) 10:10:41.67ID:7G/MQzi80
pytorch使ってるけど
fcに繋げるときに次元計算するの大変
924デフォルトの名無しさん (ワッチョイ 0f10-dpuG [153.243.53.4])
垢版 |
2021/08/14(土) 10:15:40.32ID:owqwTzAL0
LazyLinearがあるでしょ
2021/08/14(土) 10:58:01.55
テンソルといえば、Python (つーかNumpy) の多次元配列が使いやすい上に速過ぎる

まあNumpyの線形代数ライブラリがC++とかでビルドされてるってだけだが、それにしても速い

問題が全部線形代数の言葉で記述される限りは、並のプログラマC++とかFortranでコード書くメリットほぼないね
2021/08/14(土) 22:58:37.25ID:gYaerU7s0
NumPyは生のCPythonでの演算に比べて高速だけど、それでもボトルネックになり得るから、精度は落ちるがPyTorchのテンソルでGPUに計算させるね
CuPyというものも一応あるが
2021/08/15(日) 14:28:35.97ID:Qb5ISoeor
CPUよりGPUの方が速いっていうのはそりゃそうだろとしか
>>925とはレイヤの違う話
928デフォルトの名無しさん (ワッチョイ 0f63-jdSs [153.224.112.29])
垢版 |
2021/08/15(日) 15:47:17.10ID:si7Mpb2N0
> お前は毎朝起きるたびに俺に負けたことを思い出すよ^^

あー、ホンッとに思い出すなあ(笑)
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い!」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君!

クソチョンw
2021/08/15(日) 20:53:39.40ID:HtCgJxPe0
cupyはサイズが小さいテンソルだとcpuより遅いみたいだけど
2021/08/20(金) 12:10:40.90ID:MQrCwhW/a
方策勾配法で学習させたら累積報酬が伸びなくなったんだけどどうしたらいい?
https://i.imgur.com/JburTbf.jpg
2021/08/20(金) 12:49:52.15ID:FbVOze5U0
>>930
状態の保持が間違っていたりする?
変な曲線になるんだよね。
2021/08/20(金) 20:03:47.74ID:/LFG2LNja
>>931
ありがとう角度を三角関数で分解したり無理矢理スケーリングしたらなんとか学習進んでそうな感じする
933デフォルトの名無しさん (ワッチョイ 5b02-VfHF [111.99.94.136])
垢版 |
2021/08/22(日) 04:03:30.28ID:0Cz6ueFz0
Rustのメモリ安全性はボローチェッカーによって担保されているが、
Nimと比較してRustはタイプ量が多い事により限りなく低い生産性と
C++のような高い難読性、超巨大なバイナリ生成性能を兼ね備えています

Nimはバージョン1.5.1でRustのボローチェッカーに似た「View types」が実装されれば、
GC無しのView typesで参照の有効性を検証することによってメモリ安全性を保証しつつ
限りなく抑え込まれたタイプ量で高速化したCのソースコードを吐き出せます

Nimソースコード ==nimコンパイラ==> Cソースコード ==Cコンパイラ==> バイナリ

なので、nimコンパイラが通った時点でメモリ安全性が担保されませんか?

Nimの実験的特徴
著者: アンドレアス・ルンプ
バージョン: 1.5.1
http://nim-lang.github.io/Nim/manual_experimental.html


Nimは限りなく抑え込まれたタイプ量で高い生産性とPythonのような高い可読性を実現し
ているにもかかわらず、高速なCのソースコードを吐き出せるのでC言語でリモートワーク
されている方は割り振られた仕事が早く終わっても終わってないふりをして怠けることができる

「怠け者とはこうあるべきだ!」と言うとても大事な事を Nim は我々に教えてくれます
2021/08/22(日) 09:13:36.46ID:ofqTG56L0
>>1
kaggleやり始めた
全然順位上がらない😭
935デフォルトの名無しさん (ワッチョイ 2355-Awm0 [59.147.205.222])
垢版 |
2021/08/22(日) 18:24:57.02ID:GHDNHuGz0
東京都のコロナ感染者数の予測をやっている人いませんか?

もしいるとして、どれくらいの精度ですか?
2021/08/22(日) 18:56:17.98ID:zdGxm9qc0
測定データに大きな偏りがあるため予測不能
なんか数字が出たとしても、誤差さえも見積もり不能
2021/08/22(日) 19:08:22.91ID:J4tnnXpD0
カコ習慣の平均とを使用するとか工夫すればある程度できるんでね?
でも予測ってどんなん?
出せても感染者の予想分布かな
2021/08/22(日) 19:09:10.38ID:J4tnnXpD0
過去1週間の平均等
2021/08/22(日) 19:12:35.97ID:zdGxm9qc0
統計の基本中の基本だけど
偏ったサンプルデータを分析に使うと
まともな結果は導けない
2021/08/22(日) 19:19:46.61ID:J4tnnXpD0
実務でまともなデータなんてあまり無いよ

そんなデータからなんらかの成果を出すのが腕の見せ所なんだけどね
941デフォルトの名無しさん (スップ Sd03-ma+S [1.75.2.175])
垢版 |
2021/08/22(日) 21:24:36.63ID:zwA+sbGKd
そうだけど糞データではどうしようもない
後々面倒なことになる
942デフォルトの名無しさん (ワッチョイ 5b02-VfHF [111.99.94.136])
垢版 |
2021/08/22(日) 21:47:00.98ID:0Cz6ueFz0
Rustのメモリ安全性はボローチェッカーによって担保されているが、
Nimと比較してRustはタイプ量が多い事により限りなく低い生産性と
C++のような高い難読性、超巨大なバイナリ生成性能を兼ね備えています

Nimはバージョン1.5.1でRustのボローチェッカーに似た「View types」が実装されれば、
GC無しのView typesで参照の有効性を検証することによってメモリ安全性を保証しつつ
限りなく抑え込まれたタイプ量で高速化したCのソースコードを吐き出せます

Nimソースコード ==nimコンパイラ==> Cソースコード ==Cコンパイラ==> バイナリ

なので、nimコンパイラが通った時点でメモリ安全性が担保されませんか?

Nimの実験的特徴 バージョン1.5.1
http://nim-lang.github.io/Nim/manual_experimental.html

第二プログラミング言語として Rust はオススメしません Nim をやるのです
https://wolfbash.hateblo.jp/entry/2017/07/30/193412


Nimは限りなく抑え込まれたタイプ量で高い生産性とPythonのような高い可読性を実現し
ているにもかかわらず、高速なCのソースコードを吐き出せるのでC言語でリモートワーク
されている方は割り振られた仕事が早く終わっても終わってないふりをして怠けることができる

「怠け者とはこうあるべきだ!」と言うとても大事な事を Nim は我々に教えてくれます
2021/08/23(月) 11:25:28.32ID:KpLgmN1yM
optunaユーザーいる?
いまいちじゃないコレ?
2021/08/24(火) 14:58:57.23ID:Hl9oAnl10
>>935
コロナ感染者の予測を出したいなら、用いられた検査方法と検査キットの情報は不可欠
測定誤差が大きすぎ
2021/08/24(火) 16:23:56.10ID:IgUjDL9R0
回しかた足りないのかな?
3000じゃ足りない?
2021/08/24(火) 21:05:22.63ID:WPVjFHuu0
https://news.mynavi.jp/article/20210823-1954227/
東芝など、学習済みAIを用途やハードの仕様に合わせて展開できる技術を開発
2021/08/23 20:28

DNNのサイズをその重要度を見分けて削る事で
小さなエッジデバイス上でも性能を落とさずに
AIモジュールを動かすことができる、と
2021/08/25(水) 22:42:46.04ID:PyfYFB5Y0
塩野義製薬 AI創薬技術によるマルチターゲットに対する創薬を目指した米InveniAI社との業務提携について
https://www.shionogi.com/jp/ja/news/2021/04/210428.html

塩野義、創薬研究における開発候補化合物の探索にAWSクラウドの利用を開始
https://classmethod.jp/cases/shionogi/

塩野義製薬、新型コロナ重症化抑制の候補薬で米バイオエイジ社と契約
https://www.nikkei.com/article/DGXZQOHD268OV0W1A120C2000000/

製薬業界の丸ごとAI化を目指す取り組み(LINC)が日本でスタート 塩野義、理研、京都大学、NEC等
https://news.mynavi.jp/article/20171013-okuno_vinas2017/

>富岳スパコンを使った分子化合物シミュレーション
>AI(機械学習)を使った、分子動力学計算の最適化 AIを使った分子自動設計 タンパク質立体構造の予測
>知識ベース、過去の分子ビッグデータを整理し、解析、探索するデータサイエンス技術
2021/08/26(木) 08:54:20.20ID:E8v09I6UH
ごめん、optunaちゃんとしてた
2021/08/27(金) 08:05:38.52ID:ebhntqkF0
検定の考え方と機械学習(特にdeep learning)ではかなり考え方に差がある。
2021/08/30(月) 02:57:16.24ID:t9q3RQuP0
mecabより良い解析器って出てこないのかしらん?
2021/08/30(月) 09:31:33.03ID:3DuZZh5/a
mecabの何が不満?
952デフォルトの名無しさん (ワッチョイ 6b10-VSBu [153.243.43.6])
垢版 |
2021/08/30(月) 11:41:39.31ID:D5v3tNv00
sudachi
2021/08/30(月) 13:28:14.44ID:HWYFF8sx0
メカブは体にいい
2021/08/30(月) 19:26:51.33ID:t9q3RQuP0
>>951
使っている手法がcrfベースと古いから
2021/08/30(月) 20:53:05.50ID:DbDPNUf30
>>954
手法が古くても必要な結果を得られたら問題無いんじゃね?
956デフォルトの名無しさん (ワッチョイ 6b10-VSBu [153.243.43.6])
垢版 |
2021/08/30(月) 20:58:58.02ID:D5v3tNv00
バイトペアエンコーディング全盛の今、形態素解析なんて時代遅れだよねと思いきや、Whole Wordなんて手法も出てきてやっぱり重要だっていうね
2021/08/30(月) 21:56:49.19ID:t9q3RQuP0
>>955
ビッグデータ処理してると数パーセントの精度の違いが大きく出てくるから
なるべく高精度のが欲しい
2021/08/30(月) 21:59:20.42ID:t9q3RQuP0
松尾研の要約システム、ひどいな
2021/08/30(月) 22:00:46.32ID:FcBMjYja0
精度が売上に直結するならいいけど
弱い相関ならシンプルなロジック選んでしまうな
2021/08/30(月) 22:13:34.30ID:IfLgW1Xz0
40年以上前から言われているけど
何文字以内、何行以下の要約というのは
あまり意味がない。必須な部分がかけてしまうかもしれないし
余分な部分が残ってしまうことがある
2021/08/30(月) 22:23:27.16ID:6Ldth3Lh0
愚痴みたいになるけど形態素解析とかIMEみたいな古典的な分野ばっかやりすぎて
統計的機械学習やディープラーニングへの対応が遅れて
世界に取り残されたのが日本の自然言語処理のアカデミアってイメージ
アテンションやトランスフォーマーみたいな仕組みが
日本から出てこなかったのは悲しい
2021/08/30(月) 23:06:53.06ID:DbDPNUf30
>>957
それなら古いからじゃなくて必要な精度を得られないからってことで
精度に関わる他の部分を変えることで目的を達成できるかも
何がその目的達成に影響するのかは判らない
963デフォルトの名無しさん (ワッチョイ 3dca-yDFm [182.168.51.6])
垢版 |
2021/08/31(火) 04:15:10.73ID:D+Jl3XmV0
>>950
spaCyかな。利点はGPUを使えるので圧倒的に早いこと。欠点はPython依存。
964デフォルトの名無しさん (ワッチョイ 3dca-yDFm [182.168.51.6])
垢版 |
2021/08/31(火) 04:39:38.87ID:D+Jl3XmV0
>>958
個人的にはあれはよくできてると思う。
まず、要約はextraction法とabstraction法の2種類がある。
extractionはbowを作って単語の頻出度で統計処理することでウェイトの高いセンテンスを抽出する。
一方、abstractionは要約済みの学習データをseq2seqで機械学習させることで、要約エンジンを作る。
松尾研のベンチャーが作ったのは、後者のabstractionの方で、日本語でabstractiono方式の要約エンジン
というのはほとんど見たことがない。
ただ、実際に売れるかどうかは別。
この種のシステムは、を企業向けに販売しようと思ってもクラウドでAPIで提供する方式の場合だと
企業は内部情報が外部に流出することになるのでまず100%導入はしない。
一般的なのは、企業が利用してるクラウドの中にシステム用のサーバーを立ち上げるか、
企業のイントラネットの中に専用サーバーを立ち上げることなんだが、
これをやるとSI業者には勝てない。
また、下手にこの領域に踏み込むとSI 業者が海外製の要約エンジンを日本語化して販売
を始めたりするので、敵を誘い込むことになる。
2021/08/31(火) 07:41:34.77ID:vHl4DeHq0
>この種のシステムは、を企業向けに販売しようと思ってもクラウドでAPIで提供する方式の場合だと
>企業は内部情報が外部に流出することになるのでまず100%導入はしない。

用途で言えば内部情報より外部の公開情報を要約してリサーチ等に使う方が多そうな気がするが。
そうでなくても、契約文書をチェックするサービスなんてのも商売になっているくらいだし。
2021/08/31(火) 14:21:53.09ID:Sht6cbMy0
optunaで指定するパラメータの範囲はどう決めれば良いの?

apiにパラメータの取りうる範囲が1 <= p < ∞とあるとき
2021/08/31(火) 15:50:48.02ID:j/ruVWceM
1と∞で二分探索
968デフォルトの名無しさん (ワッチョイ 6b10-VSBu [153.243.43.6])
垢版 |
2021/08/31(火) 19:28:12.45ID:l6anRrPu0
無限の半分は・・・無限!!
2021/08/31(火) 19:30:49.23ID:IiAPjlBZ0
>>966
無限大に発散するような関数はまずないはずだけどどういう式?
2021/08/31(火) 20:06:05.81ID:Yj2FMtNrr
exp
2021/08/31(火) 20:07:05.73ID:TL2gsmuJ0
表からともったら裏、裏かとと思ったら表
2021/08/31(火) 20:56:01.05ID:Sht6cbMy0
>>969
xgboostのパラメータ
reg_alphaとか
973デフォルトの名無しさん (ワッチョイ 85ca-mUqo [182.168.51.6])
垢版 |
2021/09/04(土) 02:49:35.61ID:9cArpdYt0
>>877
Rejected internal applicants twice as likely to quit
doi.org/10.5465/amj.2018.1015
974デフォルトの名無しさん (ワッチョイ 85ca-mUqo [182.168.51.6])
垢版 |
2021/09/04(土) 04:02:08.87ID:9cArpdYt0
>>965
いずれにしてもSeqモデルによる実装は簡単だから、要約済みの学習データさえ準備できれば
要約システムは簡単に構築可能。無料で出す分にはみんなは面白がって使うだろうけど、有料提供
となると、かなり困難に直面するんじゃないかと思っただけ。
Seqモデルは、かなり一般化してきてるので、NLP専攻の学卒者だったら、十分に構築は可能。
これが機械翻訳とかだと、かなり膨大な学習データが必要となるので、参入障壁になるが、
自動要約だと、元の学習量もしれてるので、NTTデータや富士通あたりだと多分、簡単に作れる。
また、要約の精度は学習データに依存するので、どこまで精度の高いデータを作れるかは、
最終的には開発元の資本力によって決まることになる。
2021/09/05(日) 22:01:26.67ID:zykEaDwPr
松尾研で文章を3つの文にまとめるアプリができてましたが
これを任意の文の数にまとめられて更に
「動作を文章にするアプリ」と組み合わせることで作業手順書の自動作成ができて
ひいては行動計画に関する人工知能の開発が進むといいんですがねえ
2021/09/05(日) 22:33:17.49ID:vgQPhGSA0
どうして文の「数」にこだわるの?
重要なことがその「数」以上あったらどうするの?
2021/09/06(月) 01:15:14.50ID:otQfwK4Sr
3つにする、5つにする、など試して最も妥当な説明書になっているものを最終出力出来たらいいんですがねえ
978デフォルトの名無しさん (ワッチョイ 4b10-jJn5 [153.243.43.6])
垢版 |
2021/09/06(月) 01:21:37.13ID:owoO2Yj90
妥当な説明を定式化せよ
2021/09/06(月) 08:50:13.28ID:0zGOZ0ajM
>>975
できるんじゃない?
2021/09/06(月) 09:29:44.52ID:fsHJbGHja
重要な項目が5つあって、3つの文にせよ
という場合は、一つの文に2つ盛り込むとか?
なんだか本末転倒だなあ
重要な項目がいくつあるか分からなくなるじゃないの
2021/09/06(月) 10:59:46.00ID:fK8LC2SFr
重要な項目の数に合わせて文の数も調整できたらなあ
更にはそれぞれの文の構造化まで自動化
2021/09/06(月) 11:36:22.35ID:fsHJbGHja
例えば、裁判所の判決文とかは全部重要なのだそうで
要約できないらしい。法曹関係者が要約が下手なのは
そういう理由もあるらしい
2021/09/06(月) 16:50:04.99ID:XuYnRkl0M
ほう、そうかい
2021/09/06(月) 21:34:45.15ID:3OGE1cne0
マニュアルを要約して
手順を飛ばされてもやだな
985デフォルトの名無しさん (ワッチョイ 4b10-jJn5 [153.243.43.6])
垢版 |
2021/09/07(火) 08:21:33.30ID:QjyEMXOy0
だが待って欲しい
その手順は本当に必要だったのだろうか
986デフォルトの名無しさん (ワッチョイ ad5f-m4tS [106.73.78.34])
垢版 |
2021/09/07(火) 09:23:15.96ID:IHJavDsS0
いやちょっと待って欲しい
そもそも三つの文に…
2021/09/07(火) 12:15:41.45ID:X6g3xS9u0
富士通あたりがやり出しそう(笑)
2021/09/07(火) 13:03:13.11ID:oZHnA/lFa
試しにここのテキスト入れてみたら
めちゃくちゃ的外れな要約が出てきた
どうやら掲示板は向いてないらしい
2021/09/07(火) 20:01:11.19ID:Cp1uuQsT0
新聞記事も読み終わって何がなんだかわからない
という記事が多いから、要約しても無駄だな
990デフォルトの名無しさん (ワッチョイ 13ad-GwBl [125.12.149.140])
垢版 |
2021/09/12(日) 11:08:30.42ID:PNU8wIel0
> お前は毎朝起きるたびに俺に負けたことを思い出すよ^^

あー、ホンッとに思い出すなあ(笑)
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い!」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君!

クソチョンw
991デフォルトの名無しさん (ワッチョイ e336-qG80 [115.36.133.227])
垢版 |
2021/09/22(水) 19:51:03.76ID:pNoEEii80
リッジとラッソ回帰をうまく説明するためのデータセットて何かある?

勉強会の資料で探すてる
ボストンの住宅価格でやると効果わかりにくいからその他でいいのおすえて
992デフォルトの名無しさん (エムゾネ FF43-hED7 [49.106.174.84])
垢版 |
2021/09/23(木) 12:44:23.64ID:7tGJmFKPF
次スレここの再利用?
https://mevius.5ch.net/test/read.cgi/tech/1578890891/
2021/09/26(日) 01:33:41.18ID:fnXwjiVa0
次スレ
【統計分析】機械学習・データマイニング31
https://mevius.5ch.net/test/read.cgi/tech/1632587566/
2021/09/26(日) 01:34:31.80ID:fnXwjiVa0
スカラー倍
2021/09/26(日) 01:36:40.35ID:fnXwjiVa0
みっつの数に意味はない
ただの経験則
2021/09/26(日) 01:41:50.83ID:fnXwjiVa0
アルタナティブ
2021/09/26(日) 01:42:53.67ID:fnXwjiVa0
🉑
2021/09/26(日) 01:44:07.46ID:fnXwjiVa0
(*´∀`*)
2021/09/26(日) 01:44:53.74ID:fnXwjiVa0
(*´∀`*)
2021/09/26(日) 01:45:22.39ID:fnXwjiVa0
(*´∀`*)
10011001
垢版 |
Over 1000Thread
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 267日 16時間 34分 27秒
レス数が1000を超えています。これ以上書き込みはできません。
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況