【統計分析】機械学習・データマイニング31

■ このスレッドは過去ログ倉庫に格納されています
2021/09/26(日) 01:32:46.82ID:fnXwjiVa0
!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に1つずつ減るので、減ってたら3回に増やしてたてること。

機械学習とデータマイニングについて語れ若人

*機械学習に意識・知能は存在しません。
  人の意識に触れたい方はスレ違いです。

■前スレ
【統計分析】機械学習・データマイニング29
https://mevius.5ch.net/test/read.cgi/tech/1597882603/
-EOF-
【統計分析】機械学習・データマイニング30
https://mevius.5ch.net/test/read.cgi/tech/1609459855/
VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured
2022/03/12(土) 20:43:47.27ID:gcF4cN34a
>>421
精度上げるならドメイン知識豊富な企画職の方が有利かもしれない。
予測に寄与しそうな特徴量を考えるのが大切だから。
423デフォルトの名無しさん (アウアウウー Sa91-Hlpl [106.154.163.90])
垢版 |
2022/03/12(土) 21:45:40.55ID:rU52NueIa
ランダムにサンプルを分けるんじゃなくて、あらかじめ決められた膨大なサンプルでバギングってできますか?
424デフォルトの名無しさん (ワッチョイ 23e6-Pm4s [131.147.221.78])
垢版 |
2022/03/13(日) 00:12:08.08ID:Il614IX30
>>422
確かに。よそのチームに掛け合ってデータとってくるとか、そういうのは得意かな!

ただ、それで精度上がったとかよくわかんなくて悩む。予測の出し方とか解説してる記事とかはよく見るけど、どうやってそれを継続的に運用発展させるのかわかる本が欲しいよね
2022/03/13(日) 00:27:37.40ID:RAUtzhZX0
ランダムフォレストが特徴量を選択する性質がありますね。

ただそれを頼ってなんでも放り込んでしまうと学習コストが跳ね上がるので、結局は設計者が選別したものを使うのですが。

他にアルゴリズム自体が特徴量を選択する手法ってありますかね?
2022/03/13(日) 02:18:47.32ID:kmu2JeApa
>>424
表形式データならXGBoostに入れてハイパラ調整するだけじゃないの?
2022/03/13(日) 06:36:10.83ID:AxgJmjg/a
>>421
仕事で使う場合、MLは目的ではなくて手段だと考えないと。誰の目にも見える形で成果を出さないと評価はされない。
詳しいことは河本:データ分析・AIを実務に活かす データドリブン思考などを参照。
428デフォルトの名無しさん (ワッチョイ 2b10-eKgF [153.243.53.4])
垢版 |
2022/03/13(日) 10:01:59.98ID:CLd+TFnM0
>>424
MLOpsっていう分野だけど正解は無いから、どこも悩んでいる
429デフォルトの名無しさん (ワッチョイ e3f7-fPXT [59.146.249.99])
垢版 |
2022/03/13(日) 10:41:45.71ID:CGmKfYtk0
専門家じゃなくても現場レベルで機械学習適用が容易になってきてるからね
画像分類やらテーブル形式データからの予測とか、もう誰でもできるレベルだし
これからは何か他に専門を持って、その課題解決に機械学習適用するのがいいよ
430デフォルトの名無しさん (ワッチョイ 23e6-Pm4s [131.147.221.78])
垢版 |
2022/03/13(日) 11:05:33.21ID:Il614IX30
>>427
ありがとう、読んでみるよ!
>>429
そうだね、思ったより簡単だった。今はいろんな実務の人に実演して驚いてもらって、一緒に課題を見つける協力関係つくるのをがんばってる
2022/03/13(日) 17:11:48.11ID:BGsB05Tfp
「マスターアルゴリズム」って本面白いな
まだ序盤までしか読んでないけどワクワクしてくる
「われわれは仮想世界を生きている」も最高に知的好奇心くすぐられたり今年は当たり本によく当たるわ
2022/03/13(日) 17:12:46.30ID:BGsB05Tfp
>>421
君たいな人にこそ「マスターアルゴリズム」はオススメっぽい
433デフォルトの名無しさん (ワッチョイ e3f7-qdIG [61.25.141.41])
垢版 |
2022/03/13(日) 22:04:56.57ID:Eg2cTOah0
> お前は毎朝起きるたびに俺に負けたことを思い出すよ^^

あー、ホンッとに思い出すなあ(笑)
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い!」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君!

クソチョンw
クソチョンはウンコを食べる糞食人種w
クソチョンはゲリ便をじゅるじゅると
うまそうに食うw
2022/03/14(月) 09:43:51.31ID:FoWlqH9xp
でもさ、ぶっちゃけ機械学習の研究者やエンジニアよりデザイナーとかアーティストとかクリエイティブ系とかの方が文化的にも世界を豊かに彩って楽しくしてれるよね
人工知能は発展していけばインフラみたいになるものだし、そこからはより人間らしく創造的な活動が重要になる

結局、人にしか出来ないようなスキルの方が本質なんだと思うわ
2022/03/14(月) 09:45:43.27ID:FoWlqH9xp
芸術家の方がカッコいいしモテるんだよなあ
数学やプログラミング出来たって「わあすごーい」と言われるだけで、、、辛えわ
436デフォルトの名無しさん (ワッチョイ e38d-fPXT [59.146.249.241])
垢版 |
2022/03/14(月) 10:10:47.18ID:5Usr8w4I0
どうでもよくてわろた
2022/03/14(月) 10:42:35.45ID:FoWlqH9xp
どうせなら大きな経済的成功を成さないと機械学習やってる意味ねえから仮想通貨botterにでも転生しようかと思ってる
2022/03/14(月) 11:19:15.97ID:x/d2BPmba
どうぞどうぞ
2022/03/14(月) 11:26:19.84ID:XtxfFNUva
伸びてると思ったら書き込み一人だけ。しかもポエム系w
2022/03/14(月) 20:22:26.24ID:Yv2yZ3azM
アートで食ってくのと、数理的スキルで食ってくの、楽なのは圧倒的に後者
数理的スキルそれなりにあったらそこそこ割の良い仕事取れると思うけどなあ
そう思えないんだとしたら多分案件を探している市場がミスマッチなんだと思うけどな
2022/03/15(火) 00:56:33.52ID:hoTvDLrvp
リーマン的な思考から来る小銭稼ぎならそうだろうね
そもそも今どの市場でも数理的スキル持ってたらアンマッチなんてまず起きない
ただ>>434>>435みたいなのはエンジニアでは無理だし、億単位の圧倒的な成功も余程卓越したものを持ってないと無理

俺はリーマン的成功には何の興味も無いんだよ
442デフォルトの名無しさん (ワッチョイ e387-fPXT [59.146.165.227])
垢版 |
2022/03/15(火) 07:56:41.40ID:dAfhO/vu0
自分もマスターアルゴリズム買った
たしかにいい本だね
本屋で表紙見かけた時ラノベか何かかと思ってたw
2022/03/15(火) 10:50:00.24ID:uMMbd4OGp
>>442
わいも本屋で何気に手に取ってパラパラっと見たら良本の匂いがしたから即買ったクチ
仮想通貨botで市場から資金調達しつつ、マスターアルゴリズムや真理の探究するわ
2022/03/15(火) 12:33:22.68ID:IHRlJ72h0
マスターアルゴリズム、って学部1, 2年生には魅力的な内容かも
エッセイだし
2022/03/15(火) 23:51:36.94ID:bmN8unQB0
>>441
分野がアートだろうとクリエイターだろうとエンジニアだろうと億単位の圧倒的な成功なんて一握りだろ
戦略コンサルとかにでも転職したらいいんじゃね、そんなに成功にこだわるなら
アートもクリエイターもエンジニアも成功を目指して選ぶ業態というよりは、金銭より大事なものがあってどうしても金に心を売れない人種がする仕事だと思うがなあ
夢見すぎだよ
2022/03/16(水) 18:55:26.68ID:fZVtDLaMp
エンジニアは金銭目当てだよ
特に昨今の機械学習ブーム見れば一目瞭然
少なくともアーティストやクリエイターと同列扱いなど勘違いも甚だしい、次元が違う
2022/03/16(水) 19:09:10.14ID:7OKKR0BUM
ヒントンやルカンやベンジオがアーティストか?違うだろ
2022/03/16(水) 19:10:19.19ID:7OKKR0BUM
smtやってた連中は金融に行って大儲けした
2022/03/19(土) 21:48:51.08ID:JtgPwbGW0
こういうのはどういう仕組みなんですか?
11万件のデータを学習させているそうです
なんとなく胡散臭いような…
https://twitter.com/Angama_Market/status/1504823635953188865
https://twitter.com/5chan_nel (5ch newer account)
2022/03/19(土) 22:09:24.89ID:5pRz1xqY0
>>449
ウソです
2022/03/20(日) 11:21:04.95ID:2NkKmYw70
anacondaってゆうほど便利じゃなくない?
モジュールのインストールが超遅かったりコンフリクト解決してくれなかったり
2022/03/20(日) 11:44:01.28ID:RMYANpbIa
conda install使うとはまるな
総合的に普通よりもちょい上ぐらいのイメージ
2022/03/20(日) 18:44:56.60ID:AqIDsxxna
>>451
ソースコードからPython実行環境を構築してみると分かる。パッケージ管理ツールの有り難さが。
文句を言う前に自分が努力してみよう。
2022/03/20(日) 18:46:40.29ID:2NkKmYw70
opencvのインストール、6時間経っても終わんない😭
2022/03/20(日) 20:22:45.30ID:2NkKmYw70
>>453
普段はpip使ってるけど使いたいライブラリがanacondaおすすめしてたから使ってみたらこうだよ(o´・ω・`o)
456デフォルトの名無しさん (ワッチョイ 16ca-1Kca [121.3.181.42])
垢版 |
2022/03/20(日) 23:28:12.61ID:clBqY9hv0
condaは仮想環境構築には便利
2022/03/21(月) 00:56:53.16ID:avj/Dp0k0
anaconda は、モジュールの依存を解決してくれないの?
嘘でしょ? そんなパッケージマネージャーってある?

Ubuntu のapt, Ruby のBundler, Node.js のnpm/yarn は、依存を解決するけど
2022/03/21(月) 01:12:35.94ID:ft3mqpFHa
anaconda今年から商用利用有料になったからminicondaに変えて取得リポジトリ変えないといけない
だったらvenvで環境切ってpipで自分で解決したほうがいい
2022/03/21(月) 06:35:51.00ID:RxCXPNTc0
wordcloudって面白いけど
単語の重みの数値とか単語間の繋がりの数値とか順位とかを出力してくれる機能はあるのかなあ?
2022/03/21(月) 18:06:01.26ID:xxek/EEk0
>>459
特定ライブラリの機能じゃないから実装によるだろ
2022/03/22(火) 10:26:04.56ID:123isjY5M
谷中瞳とか女はイージーで良いなあ
広告塔にもなるし
2022/03/23(水) 10:09:00.76ID:UN1vKWzyr
pydotplusとgraphvizいいなあ
2022/03/29(火) 01:28:15.27ID:omLa31ht0
optunaって、同じパラメータを重複して試行することあるよね?
仕様なの?
2022/04/02(土) 06:29:57.41ID:SlF55qRa0
当方超絶初心者なのですが質問をお許しください。

やりたいことは、5小節分のベートーヴェンの楽譜をデータセットとして、
学習後諸パラメータからベートーヴェンの曲のある瞬間の音を推論するというもの

その際、まずは手作業で一小節づつ手作業でデータセットを作り、
また目標値を単純にある音の次の音、ということにしました。
つまり一つの音に音高・音価・音量等があるのですが、それが四声同時に鳴るので、
3×4×(記録する音との数)という3次元配列なのですが、目標値もまた3次元配列です。

このとき、from chainer import Sequentialして
入力変数を12、出力変数と12として、
目的関数を適切に選べばやりたいことができるでしょうか(最終的にはライブで、自分の演奏を一定期間学習させてリアルタイムに学習済みモデルを作り、こちらの入力に対し推論値をOSCで演奏システムの方に送ってパラメータを設定させる、ということを考えています)

またその際の目的関数として何が適切なのかも教えて頂けると幸いです。
2022/04/04(月) 18:40:17.74ID:oFLIZQp1a
そういう単純な方法だとだいたいにおいて目的にかなわない推測になるなw

適当にぐぐってそこから論文みつけてreferenceおっかけて方法ぱくるのがいいと思う
https://towardsdatascience.com/generating-music-with-artificial-intelligence-9ce3c9eef806
https://arxiv.org/pdf/1609.03499.pdf
2022/04/04(月) 21:41:20.09ID:6BKqFtko0
題材が面白い
2022/04/08(金) 11:39:54.46ID:JzsOoP0Ma
家庭用PCで学習できるオススメのレコメンドシステム教えて下さい
468デフォルトの名無しさん (ワッチョイ 7610-7Nbo [153.243.53.4])
垢版 |
2022/04/08(金) 12:41:14.77ID:ViZWtTWj0
協調フィルタリング
2022/04/09(土) 07:31:19.07ID:RkeIeVAB0
>>465

ご紹介ありがとうございます、リンク先凄いですね・・・
ただ今回は、オーディオを扱うのでなく、あくまで自作ソフトウェアシンセの
各パラメータを学習させて、それを自動演奏させるのが目的なので、
MIDI信号つまり小数の配列で十分なのです。

そこで方策として、
まず教師用データとして、一定時間自分の演奏を記録(各パラメータをPythonに送りそれぞれ一次元配列に格納しておく)
入力用データとして、そのあと同じ時間(つまり同じ長さ分の配列)自分の演奏を記録して、それを入力用データとする
アウトプットをソフトウェアシンセに送り返して、パラメータとして設定

という大まかなものが出来ました。

ところで本当によくわかってないので初歩的な質問を失礼しますが、目標値やラベルが必要だと思うのですが、ここでそれに当たるものは何なのでしょうか・・?

自分のシンセのパラメータは20個くらいを考えています。それらを20個の配列に記録したとして、これを教師用データとしたとして、ある入力(20個のパラメータ)に対してその予測として20個のパラメータを推論してくれれば嬉しいのですが・・・
普通だったら複数のパラメータから、一つの別のパラメータを予測するものですよね。

考え方が混乱しているので、ご指南いただけますと幸いです。
2022/04/09(土) 11:08:34.82ID:wsR7En4lM
時系列かなと思ったけど
あんまり履歴情報は使わないの?
2022/04/09(土) 11:52:07.89ID:RkeIeVAB0
時系列、ということは例えば、データセットとして演奏データを送ったとして、
データ送信終了するときの一番最新のものを、目標値として使う、などということでしょうか。
2022/04/09(土) 22:36:41.08ID:ldStXoeua
クロスエントロピー誤差の偏微分って出力変数の合計が1になるって制約は考えなくていいのはナゼ(・・?
出力変数がz1とz2の2つならz1について偏微分するときはz2=1-z1としなくていい?
473デフォルトの名無しさん (ワッチョイ 4e10-3n4s [153.243.53.4])
垢版 |
2022/04/10(日) 01:24:56.83ID:EKUiWMOD0
偏微分する変数はソフトマックスの前だから合計1の制約はない
474デフォルトの名無しさん (ワッチョイ 1a55-wAOu [59.147.205.222])
垢版 |
2022/04/11(月) 09:22:54.65ID:lzGgtjtn0
新しく出たCLRS著『Introduction to Algorithms 4th Edition』

ですが、機械学習についての章が追加されましたね。
2022/04/11(月) 16:05:56.30ID:2fSBGaeoa
>>474
いらねーと思ったけどよく考えたらあらゆるジャンルのアルゴリズム扱ってたし
入れてもいいか
2022/04/11(月) 16:12:26.88ID:TQ9uCke7M
機械学習アルゴリズムは四則演算並みに常識化するのかも
2022/04/11(月) 17:10:35.01ID:qTt+hl+J0
>>476
アルゴリズムは知らなくても使えますし常識化はしないんじゃないですかね。

仕組みは分からないがツール経由で使い方を知っていると言うところに落ち着くのではないかと。
2022/04/17(日) 17:45:40.20ID:eq30vPTz0
セマンティックセグメンテーションを試そうとcolaboratoryでやろうとして

yolactは本家のデータセットが入ってないから止めた

そもそもyolactではPyTorchは1.4以上お薦めなのにPyTorch本家の指示に従うと1.1になってしまう

それでsemamtic segmentationという名前ので試そうとしたら今度はopenCVのバージョンを4.5でなく4.4に
する必要があった
しかも今度は教師データにアノテーションデータフォルダなしでこれも動かない

ちゃんとデータセット揃ってるのでやり直そう
479デフォルトの名無しさん (ワッチョイ 1375-oxBX [61.120.184.208])
垢版 |
2022/04/17(日) 19:37:04.77ID:JJettxAE0
ここは日記帳じゃな…
2022/04/17(日) 19:39:58.71ID:26nIbAS60
だってまともな書き込み少ないし
2022/04/17(日) 23:46:59.59ID:eq30vPTz0
データセットが揃ってる資料を使ってやってみたら
何とか最後まで行き着いた

しかし

1. PyTorch公式でpipすべきバージョンを調べた後で
わざわざそれと違う1.4をインストールするとか
opencvも4.4にするとか色々変える

2. 一見丁寧に書いてある資料と思わせて
公式のipynbの資料とやっぱり違ってて
そのまま丸写しすると
validdataのフォルダが作られてなかったり穴だらけになる

等などで、
「ここは最初の資料ではこう書いてあるがこうやらないと動かないぞ!!!!!」
と#コメント文が山のようにくっ付いたcolabの資料が完成した次第

しかし、別の時間帯に試したらGPUがK80とかT4とかだったりで
GPUガチャは避けられないからなあ
2022/04/18(月) 00:02:15.50ID:fO2jMkbS0
>>29
さてそれはどうでしょうか
実は1月〜3月ほど強度のストレス下にあり、一睡もできない日々が2ヶ月続きました(体力維持のためしっかり食べてビタミン剤で補強しても体重は15kgも減りました)が、じゃあ記憶が全然できなかったかというとそうでもなかったです…
今ではサイコパス呼ばわりされちゃっています、私は結構タフですねえ…
2022/04/18(月) 01:44:31.01ID:0HwQROji0
本当に2ヶ月(24x60=1440時間)覚醒し続けたならもう死んでる。
つまり、2ヶ月一睡もしなかったというのは妄想。そりゃ精神障害扱いされるわ。
2022/04/18(月) 10:27:14.26ID:ldvKvDDSM
今yandexクラウドって日本から契約できるかな?
485デフォルトの名無しさん (ワッチョイ 4fe6-5amf [58.183.206.102])
垢版 |
2022/04/23(土) 00:30:31.12ID:dMbrZ21D0
機械学習メインでやってる人からすると、例えばGLMみたいな統計モデリングはどういう扱い?機械学習の一部?
2022/04/23(土) 00:48:26.73ID:vni05tAU0
学習データを元にモデルのパラメータを推定するんだから機械学習
487デフォルトの名無しさん (ワッチョイ df10-rbym [153.243.53.4])
垢版 |
2022/04/23(土) 20:31:19.17ID:YDHn6dIe0
最小二乗法も機械学習?
488デフォルトの名無しさん (ワッチョイ 3fd5-Tb6s [111.217.170.2])
垢版 |
2022/04/23(土) 23:00:18.32ID:1pRqwchI0
うん
2022/04/23(土) 23:24:04.66ID:KO5U6zCs0
というより機械学習が統計崩れ
490デフォルトの名無しさん (ワッチョイ 6ff7-pAiX [61.25.140.151])
垢版 |
2022/04/24(日) 00:02:27.67ID:XmcVNZmY0
> お前は毎朝起きるたびに俺に負けたことを思い出すよ^^

あー、ホンッとに思い出すなあ(笑)
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い!」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君!

クソチョンw
クソチョンはウンコを食べる糞食人種w
クソチョンはゲリ便をじゅるじゅると
うまそうに食うw
2022/04/24(日) 02:26:30.49ID:zMrq6bhEM
最小二乗法は機械学習ではないな
計算過程に学習が必要でないから
492デフォルトの名無しさん (ワッチョイ ef97-rYrL [182.171.246.142])
垢版 |
2022/04/24(日) 03:32:27.95ID:JMbxt0Az0
「学習」という言葉をどう定義しているの?
2022/04/24(日) 09:31:15.29ID:O71gCCTUa
学習用データに応じて結果が変わるんだから最小二乗法も学習してるでしょ
2022/04/24(日) 16:32:36.67ID:2A9d2NDv0
クラスタリングも機械学習定期
495デフォルトの名無しさん (ワッチョイ df10-rbym [153.243.53.4])
垢版 |
2022/04/24(日) 17:33:03.56ID:WgEnBMjc0
最近傍法も機械学習
2022/04/24(日) 17:57:41.63ID:+Nm8DxZxd
〇〇はAIですかも同系統の質問だけど何でそんなことが気になるのか不思議
2022/04/24(日) 21:10:28.13ID:C8yoCkZdM
いや最小二乗法は解析的に解くから学習してないだろう
学習の定義とかしらんが、機械学習ではない
498デフォルトの名無しさん (スッップ Sdaf-Tb6s [49.98.147.87])
垢版 |
2022/04/24(日) 21:13:53.85ID:+sg2jP07d
評価関数をMSEにして回帰してるなら機械学習
499デフォルトの名無しさん (ワッチョイ df10-rbym [153.243.53.4])
垢版 |
2022/04/24(日) 22:11:05.81ID:WgEnBMjc0
>>497
解析的に解けるかどうかってそんなに重要か?
最小二乗法をあえて確率的勾配法で解いたら機械学習と呼べる?
データが大量でメモリに乗らない時に使う手段だが
2022/04/24(日) 23:04:26.15ID:b8mqC9pha
MLの定義なんて決まってないからな
入れる奴もいれば入れない奴もいるってだけ
俺は最小二乗法も入ると考えてるけど、内心では古典的なクラスタリング含めてそんなもんML扱いすんなよと思ってる
2022/04/25(月) 08:28:54.71ID:WWt+XW3b0
こんなこと言っても線形回帰に精度で負けちゃうんだよね
2022/04/25(月) 17:57:03.33ID:W8GcUQ3oM
成田悠輔ってどうよ?
2022/04/26(火) 01:25:38.26ID:Kn8thUra0
回帰の勾配ブースティング木の勾配がMSEの微分で残差となるのは理解できたのですが、
分類問題の場合の各決定木の勾配って何になるのでしょうか?
2022/04/26(火) 06:10:44.32ID:+JXXpgOw0
mse
2022/04/27(水) 14:32:11.91ID:iTC4QIl5M
lecunとbengioとhintonは普通の研究者のひとつ上のレベルにいるのな
大体の技術の先駆者で驚愕
最近のlecunのインタビュー読んだけどまだアイデアがあるみたいだな
arcfaceでひーこら言ってる俺とは違いすぎて挫折感ハンパない
2022/04/28(木) 01:23:19.89ID:jP1CmVa/0
割と微妙かな。いうほどクリティカルな論文は出してないんじゃ。
2022/04/28(木) 13:28:27.59ID:oc5VTTvkM
東大がディープフェイク検出アルゴリズムを出したみたい
2022/04/28(木) 13:39:10.55ID:moo4Gf/Ba
まばたきしないとか髪ぼやけるとか、人間なら検出できるって言ってたからな
そのうちディープフェイク側が精度上がるだろ
2022/04/28(木) 14:29:37.14ID:jP1CmVa/0
てかそうやって進歩させるのがGANのコンセプトではあるわな。
2022/04/28(木) 20:37:53.29ID:bi7reEEy0
違う
2022/05/07(土) 06:55:36.29ID:u2uFhB8a0
Qiita のこの記事、実にいいなぁ

機械学習でなんとかしようと安易に考えるな
https://qiita.com/nonbiri15/items/cfc6909ff71273b63f5e

ディープラーニングなら学習すればできるんでしょ、と言う奴、どっか遠くの星にでもに行ってほしい
2022/05/07(土) 07:29:24.11ID:u2uFhB8a0
たとえば、お客さんが受け取った帳票が領収書か請求書かを自動判別したい場合、

今まで受け取った領収書と請求書の画像を学習データにしてDLに学習させて、できた簡単とか言う奴いるけど
・未知の帳票フォーマットに対して有効なのかそれ?
・受け取った帳票は全部印字・記入済なんだが、そんなんで学習していいのか?(未記入帳票は不要なの?)

そんなんには怖くってまかせられないんだが、おいらの感覚は合ってるよね
2022/05/07(土) 07:52:28.76ID:u2uFhB8a0
たとえば文字枠のある用紙に書かれた手書き文字を OCR する場合

・手書き文字だから枠からはみ出すし、はみ出す位置もさまざまだし、
・文字枠も1桁ごとだったり3桁ごとだったり点線だったりキリがない

こういうのは対象画像をそのまま(枠付きで)DLに学習させても、読めますよなんてとても言えんと思うんだが。最近はそうでもないのか?

昔は専門家がデータ眺めてうんうん唸ってロジックを考えていたが、そういうのも大切だよねと
2022/05/07(土) 08:12:58.95ID:u2uFhB8a0
あと、学習データで評価してお客に報告するアホ技術者?もシリウスβあたりに左遷して欲しい
スキャンしなおしたら同じ紙でも別データだよね、とかいうやつも

正読率80%はぎりぎり最低ラインで、どんな方法を使ってもこの程度はいきます
95%を超えるあたりからが勝負です。頑張りましょうね。と言いたい
2022/05/07(土) 12:37:56.46ID:Gp5QHcLl0
simclrはしんくらーで良いの?
516デフォルトの名無しさん (ワッチョイ 6204-cfd4 [131.213.243.150])
垢版 |
2022/05/07(土) 13:07:42.38ID:TDwBHkCb0
>>512-514
基本的に事前に確認しておく内容かと
後から言われても対処できんよ
2022/05/07(土) 13:59:18.26ID:u2uFhB8a0
>>516
誰が何を確認するの?
学習データとして妥当なのかそれ、という話なんだが
518デフォルトの名無しさん (ワッチョイ 6204-cfd4 [131.213.243.150])
垢版 |
2022/05/07(土) 14:17:45.58ID:TDwBHkCb0
学習データの妥当性や追加のデータが必要かどうかも普通は打ち合わせしとくよね?
最終的なアウトプットを出す為に必要なデータもエンジニアから提案あるよね?
2022/05/07(土) 14:31:19.87ID:9e79BjZl0
学習データが1000万件ぐらいあれば話が変わってくるけど
現実にあるのはせいぜい1万件、ひどいと100件ぐらいで
何とかしてくれと言ってくる
520デフォルトの名無しさん (ワッチョイ 6204-cfd4 [131.213.243.150])
垢版 |
2022/05/07(土) 14:35:10.26ID:TDwBHkCb0
無茶なこと言ってくる人多いからね
最初にはっきりさせておかないと後々面倒になるんだよ
今は周りも大分理解が進んできてるけどさ
2022/05/07(土) 14:51:30.69ID:cvuJwPv2a
「100件でやれ」といわれて「それじゃ少なすぎてできない」というのは簡単だけど
本当にできないとは限らないからな
そこが難しいところなんだよ
「やる気になれない」とか「俺には無理」ってだけ
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況