X



統計解析R たぶんpart3くらい

0313デフォルトの名無しさん
垢版 |
2019/11/01(金) 23:50:53.61ID:JL+xq15p
[JavaScript const in R](https://colinfay.me/js-const-r/)
やってみる
``` {js}
$ (window).on ('load', function () { const out = new Map ();
out.hello = 'world'; $ ('#const-here').html (JSON.stringify (out)); });
```
<pre id='const-here'></pre>
``` {r}
with (list (), { your_name = function (x) deparse (substitute (x));
out = new.env (); lockBinding (your_name (out), environment ());
tryCatch ({ out $ hello = 'world'; }, error = function (ex) {
assign ('hello', toString (ex), env = out); });
jsonlite::toJSON (as.list (out), auto = T); });
```
``` {Rcpp}
#include <Rcpp.h>
// [[Rcpp::export]]
void kossori (Rcpp::List out, Rcpp::String key, Rcpp::RObject val) {
out [key] = val; }
```
``` {r}
with (list (), { your_name = function (x) deparse (substitute (x));
out = list (hello = ''); lockBinding (your_name (out), environment ());
tryCatch ({ out $ hello = 'world'; }, error = function (ex) {
kossori (out, 'hello', toString (ex)); });
jsonlite::toJSON (out, auto = T); });
```
仕様上は、`env`に対する`$`でのセッターは、たとえ`lockBinding`が
施されていても無問題と思うが、実際は、弾くようにしている。
何か理由があるのかな?
0315デフォルトの名無しさん
垢版 |
2019/11/09(土) 01:49:31.14ID:ElXn62V9
[ブログ](https://colinfay.me/js-const-r/)の
[続き](https://twitter.com/_ColinFay/status/1176425719653642242)
必要があれば[R Online](https://srv.colinfay.me/r-online)で試せる
ストーカーの有無によっても変わる

``` {r}
with (list (), {
a <- list (x = 1);
lockBinding ('a', environment ());
tryCatch (a $ x <- 999, error = print);
a;
});
with (list (), {
a <- list (x = 1);
lockBinding ('a', environment ());
stalker <- a;
tryCatch (a $ x <- 999, error = print);
a;
});
```
https://twitter.com/5chan_nel (5ch newer account)
0316デフォルトの名無しさん
垢版 |
2019/11/17(日) 16:00:34.19ID:SBcPPDjQ
Rでリストをつくってデータフレームを組むと

X <- c(A, B, C)
Y <- c(1, 2, 3)
df <- data.Frame(X, Y)
df

A 1
B 2
C 3

って出てくると思ったら

ABC123

って出てきます。これはどうしたらいいのでしょうか?
0317デフォルトの名無しさん
垢版 |
2019/11/17(日) 20:19:12.60ID:2+DKcb6J
これで、ちゃんとデータフレームになるけど?

X <- c("A", "B", "C")
Y <- c(1, 2, 3)
df <- data.frame(X, Y)
df

X Y
1 A 1
2 B 2
3 C 3
0318デフォルトの名無しさん
垢版 |
2019/11/23(土) 18:54:17.63ID:uVrSZXJh
[mathjax-node-page](https://github.com/pkra/mathjax-node-page)
を使って`knitr`が作ったMathJaxの数式をsvgに変換する

工具ディレクトリ`$(tool)`に`mathjax-node-page`をインストールする
~~~ {.bash}
cd $(tool)
npm install mathjax-node-page
~~~
ディレクトリ`$(tool)/node_modules/`ができる
ファイル`$(tool)/page.js`を作る
~~~ {.js}
const fs = require ('fs'); const path = require ('path');
const mathjax = require ('mathjax-node-page'); const argv = process.argv;
const usage = () => {
return ['[usage]', path.basename (argv [0]), path.basename (argv [1]), '<input-html-file>'].join (' ');
}; if (argv.length !== 3) { console.log (usage ()); process.exit (1);
}; const encoding = {encoding: 'utf-8'}; const inn_file = argv [2];
const inn = fs.readFileSync (inn_file, encoding);
mathjax.mjpage (inn, {format: ['TeX']}, {svg: true}, (out) => {
process.stdout.write (out); });
~~~
よっこらしょ
~~~ {.bash}
nodejs $(tool)/page.js R/a.html > html/a.html
~~~
オフラインでも読めるようになる
もっと賢い方法があるかも
0319デフォルトの名無しさん
垢版 |
2019/11/23(土) 21:12:46.09ID:fygFNKSM
Electron = Chromium(ブラウザ) + Node.js(サーバー・ローカルPC にアクセス) + V8(JavaScript エンジン)
0320デフォルトの名無しさん
垢版 |
2019/11/30(土) 22:37:46.15ID:IwhEZ0QX
Electronが想像どおりのものだとすると
アプリケーションを作る際には良い選択肢の一つだと思う
ただ上でやろうとしていることに対しては真逆な方向に進んでしまうと思う

HTMLをオフラインで読めるようにするにはRmdのYAMLを設定すれば良い
[HTML document](https://bookdown.org/yihui/rmarkdown/html-document.html)
~~~ {.yaml}
output:
html_document:
mathjax: local
self_contained: false
~~~
この方法で作ったHTMLをディレクトリごと配布すれば問題ない
しかし完結した一枚のHTMLにまとめられればそれに越したことはない
このちっさい野望を叶えるために
Pandocは`self-contained`というオプションを用意している
この行く手を拒むのがMathJaxになっている
この話題は誰も興味がないと思うのでもう少し続ける
0321デフォルトの名無しさん
垢版 |
2019/11/30(土) 22:40:42.19ID:IwhEZ0QX
Pandocのフィルターを使う手もある
[mathjax-pandoc-filter](https://github.com/lierdakil/mathjax-pandoc-filter)
~~~ {.yaml}
output:
html_document:
pandoc_args: [--filter, $(tool)/node_modules/.bin/mathjax-pandoc-filter]
~~~
フィルターが確実に動作する限りはベストだと思う
多分`mathjax-node-page`より実行速度が早い
多分ブラウザ内でMathJaxを動作させるより実行速度が早い
ただしフィルターにバグがあってPandocが解釈できないjsonを返すと
HTMLが出力されない

ちなみに最近のPandocではipynbも出力できる
次のように書いておけばipynbのコードブロックに変換してくれる
~~~ code
(lambda who: print ('hello ' + who)) ('Jupyter');
~~~
逆にipynbをマークダウンに変換もしてくれる
使い方はいろいろだと思う
おしまい
0322デフォルトの名無しさん
垢版 |
2019/12/25(水) 19:59:31.70ID:iqbdwPlo
整然データって実験条件とかはどのように格納するべきですか?

1. 実験条件ファイル

expDescr101.csv
氏名  性別 年齢 室温 モニタ解像度 問題数 問題パターン ・・・
TaroSat M  32   32    1920      29   A        ・・・

2. 実験データファイル

時刻  反応A 反応B
1011   1    0
1020   0    1
1100   0    0
以下続く


1の実験条件ファイルの条件が50個ぐらいあり、横にすごく長くなってしまうんですが、
1のファイル形式としてはこれで適切なのでしょうか?
0323デフォルトの名無しさん
垢版 |
2019/12/25(水) 22:05:09.08ID:/tjuWJuH
それだけじゃなんとも言えんが、ぱっと見て条件データと実験データってどうやって紐付けんの?とは思った。
0324デフォルトの名無しさん
垢版 |
2019/12/25(水) 22:15:54.96ID:iqbdwPlo
>>323
1. 〇〇Descr.csv
2. 〇〇Data.csv
というファイル名にしてファイル名で紐付けしようと思ってました。
Rだと1,2は同一ファイルに記載するものなのでしょうか?
0327デフォルトの名無しさん
垢版 |
2020/03/30(月) 22:33:20.98ID:/oBV1AS/
検査者間信頼性としてICCを求めたいのですが、
ICC(1,1)
(1,k)〜(3,k)まで6この下位モデルすべて求められる一般的なパッケージってありませんか?

調べたところ改変Rコマンダーってのがあるんですけど、
これって論文とかに使って問題ないでしょうか?
0329デフォルトの名無しさん
垢版 |
2020/06/01(月) 08:52:13.43ID:jwD9tPwu
ubuntu20.04のxfce環境だとRstudioのプルダウンメニューがマウスで開けない・・・・・
仕方ないからキーボードでやってるけど同様の症状の人いる?
0335デフォルトの名無しさん
垢版 |
2020/12/08(火) 22:26:28.66ID:UWuPPeJ6
以前書いたプルルのパイプのバグ(?)はフィックスしている。
[Tidyverse](https://www.tidyverse.org/blog/2020/11/magrittr-2-0-is-here/)
いつフィックしたのかはわからないが、magrittrを2.0にアップデートしたら
動くようになっていた。次の記事を見て、新しく導入されるっぽい関数宣言の
短縮形を試していた際に気がついた。
[R adds native pipe and lambda syntax](https://news.ycombinator.com/item?id=25316608)
Rockerさまさま。というわけでJSネタ。
[A Modern JavaScript Tutorial](https://news.ycombinator.com/item?id=25333350)
JSのプロミス(Rのプロミスとは別)を勉強した時に、素人目線の注意書きが
ところどころにあって、とても助かった記憶がある。皆さんを心地よい睡眠へ
誘う渾身のプレゼン資料を作る時に役立つかもしれない。
0336デフォルトの名無しさん
垢版 |
2021/01/23(土) 18:19:52.83ID:ibK8bFkF
[[r-hub/r-minimal: Minimal Docker images for R](https://github.com/r-hub/r-minimal)

`rocker`のイメージとサイズを比べてみる。

~~~ {.bash}
REPOSITORY TAG SIZE
rhub/r-minimal devel 35.3MB
rocker/r-ver devel 813MB
rocker/tidyverse devel 2.31GB
~~~

`rhub/r-minimal`にRのライブラリをインストールしようとすると、
`gcc`などのシステムのライブラリが必要になる。それを調べて
インストールする手間を考えると、初めから全込みのイメージを
ダウンロードした方が手っ取り早いかもしれない。それでも、
`r-minimal`から始めたくなる場面がしばしばあると思う。特に、
初めてDockerを使う場合は、まずは、`r-minimal`で試してみる価値が
あると思う。金は時なり。
0337デフォルトの名無しさん
垢版 |
2021/03/07(日) 00:01:20.86ID:9nPgQwYX
マイクロソフトがMicrosoft365Rというパッケージを公開してる
365(Office365)をRから操作できるらしい
0338デフォルトの名無しさん
垢版 |
2021/03/11(木) 05:52:16.51ID:QXrD3sSh
rvestのバージョンがついに1.0.0になったみたいよ
追加されたhtml_text2()はどんななんだろ
0341デフォルトの名無しさん
垢版 |
2021/03/13(土) 22:20:23.19ID:7PLWsAxv
気になって調べてみた。

[List of effects](https://en.wikipedia.org/wiki/List_of_effects)

分野別に見ると、物理が最も多いかもね。
ただし、数年のライフタイムまで含めると、物理以外が多くなる気がする。

* [ストライサンド効果](https://en.wikipedia.org/wiki/Streisand_effect)
* [シャンシャン効果](https://www.youtube.com/watch?v=_mNwkyxtHiw)
* [藤井効果](https://www.nikkei.com/article/DGXMZO24677330V11C17A2000000/)
* [シブコ効果](https://sportiva.shueisha.co.jp/clm/golf/golf/2019/09/01/post_5/)
* [グーグル効果](https://en.wikipedia.org/wiki/Google_effect)
* [ブルウィップ効果](https://en.wikipedia.org/wiki/Bullwhip_effect)
* [レゲエ効果](https://www.youtube.com/watch?v=TtKTW0HCBRA)
* 安藤もあ

いろんな人が〇〇効果って言葉が好きな気がする。

一般に、少数の特徴量が掴めたときに限り、〇〇効果という言葉が使われる
ように見える。だとすると、〇〇効果という言葉が使える状況は幸せなこと
だと思う。
0342デフォルトの名無しさん
垢版 |
2021/03/13(土) 22:40:45.53ID:BHUVv8XX
Effective Java 第3版とかか。
0343デフォルトの名無しさん
垢版 |
2021/03/13(土) 23:24:01.37ID:WRMq8U61
物理現象だと因果がはっきりしてるから○○エフェクトってなりやすいんだろうね
心理の場合でもプラシーボ効果やカリギュラ効果みたいに因果が明確なものは○○効果だね
0345デフォルトの名無しさん
垢版 |
2021/03/14(日) 17:18:34.03ID:/reDmCHL
多分バタフライエフェクトって有名な映画の影響
0346デフォルトの名無しさん
垢版 |
2021/03/16(火) 19:04:00.31ID:b0P2Xnea
RStudioで普通に日本語入力できるようになってるんだね
以前は変換確定するまで数文字しか表示されなかったのに
0347デフォルトの名無しさん
垢版 |
2021/04/03(土) 13:40:09.03ID:J5cKOXYD
下表のようにある職種米にあqるskillに対する得点を計測し平均値を表にしました。
この得点からスキルをABCの3つにクラスタリングしています。
       医師 看護 介護 クラスタ
skill1   0.8 0.4 0.2   A
skill2 0.3 0.5 0.1 B
skill3 0.2 0.3 03 C
skill4 0.1 0.3 03 C
・・・
skill15 0.1 0.2 0.8 B

で、クラスタAに対する医師・看護・介護の得点をボックスプロットしたいのですが、
なにかいい方法ありませんでしょうか?
0348デフォルトの名無しさん
垢版 |
2021/04/03(土) 13:41:25.14ID:J5cKOXYD
下表のようにある職種米にあqるskillに対する得点を計測し平均値を表にしました。
この得点からスキルをABCの3つにクラスタリングしています。
 医師 看護 介護 クラスタ
skill1 0.8 0.4 0.2 A
skill2 0.3 0.5 0.1  B
skill3 0.2 0.3 03  C
skill4 0.1 0.3 03  C
・・・
skill15 0.1 0.2 0.8 B

で、クラスタAに対する医師・看護・介護の得点をボックスプロットしたいのですが、
なにかいい方法ありませんでしょうか?
0350デフォルトの名無しさん
垢版 |
2021/04/03(土) 20:04:53.80ID:M3UwNQqU
宿題かなんか?

医師・看護・介護が水準になるtidy data形式にしてから描けばいいんじゃ?
0351デフォルトの名無しさん
垢版 |
2021/04/03(土) 23:54:26.19ID:LokMTfAJ
>>348
tidyverseは使えますか?
データフレーム名をdfとすれば大枠は以下でいけますよ

library(tidyverse)
df %>% filter(クラスタ == "A") %>%
pivot_longer(-クラスタ) %>%
ggplot(aes(name, value)) + geom_boxplot()
0352デフォルトの名無しさん
垢版 |
2021/04/04(日) 06:55:51.01ID:CeSVCjFt
上の回答が答えになっていると思う。以下はおまけ。
``` {r nasdaq}
df = "
CEO, COO, CTO, cluster
0.8, 0.4, 0.2, A
0.3, 0.5, 0.1, B
0.2, 0.3, 03, C
0.1, 0.3, 03, C
0.1, 0.2, 0.8, B
";
df = read.csv (text = df, colClasses = c ("numeric", "numeric", "numeric", "character"), strip.white = T);
print (df);
```
tidy無し版
``` {r plain, dependson = 'nasdaq'}
for (clazz in unique (df $ cluster)) {
go = subset (df, cluster == clazz, select = - cluster);
print (go);
boxplot (go, xlab = 'role', ylab = 'skill', main = sprintf ('cluster = %s', clazz));
}
```
続く
0353デフォルトの名無しさん
垢版 |
2021/04/04(日) 06:56:59.64ID:CeSVCjFt
パイプ無し版
``` {r tidy, dependson = 'nasdaq'}
for_plot = tidyr::pivot_longer (df, - cluster, names_to = "role", values_to = "skill");
print (for_plot);
for (clazz in unique (for_plot $ cluster)) {
go = dplyr::filter (for_plot, cluster == clazz);
print (go);
. = ggplot2::ggplot (go);
. = . + ggplot2::aes (x = role, y = skill);
. = . + ggplot2::geom_boxplot ();
. = . + ggplot2::labs (
title = sprintf ('cluster = %s', clazz)
);
print (.);
}
```
プロットを並べる。
``` {r arrange_plot, dependson = 'tidy', fig.width = 4 * 2, fig.height = 4}
. = ggplot2::ggplot (for_plot);
. = . + ggplot2::aes (x = role, y = skill);
. = . + ggplot2::geom_boxplot ();
. = . + ggplot2::facet_wrap (~ cluster);
print (.);
```
箱を並べる。
``` {r arrange_box, dependson = 'tidy', fig.width = 4 * 2, fig.height = 4}
. = ggplot2::ggplot (for_plot);
. = . + ggplot2::aes (x = role, y = skill, fill = cluster);
. = . + ggplot2::geom_boxplot ();
print (.);
```
おしまい
0354デフォルトの名無しさん
垢版 |
2021/04/04(日) 21:35:04.47ID:wb8oJNIe
色々とご親切にありがとうございます
自分のつたいないコードよりスッキリ問題解決しました
m(_ _)m
0355デフォルトの名無しさん
垢版 |
2021/04/05(月) 22:30:05.95ID:I+S1foEa
白状すると、検索してコピペして動いたコードを貼っただけ。
`boxplot`自体使ったことがなかった。
0356デフォルトの名無しさん
垢版 |
2021/04/05(月) 23:42:08.67ID:rQp9M9u0
箱ひげ図は義務教育で教えるようになってからじわじわ市民権を得つつある感じ
10年前はほとんど誰も知らなくて見せてもなんだコレだったけど
0361デフォルトの名無しさん
垢版 |
2021/05/05(水) 21:34:32.08ID:UPU4dvJy
RでJIS丸めじゃない四捨五入ってどうやればいいの?
round(0.285,2)が0.28じゃなく0.29になるような
0364デフォルトの名無しさん
垢版 |
2021/05/06(木) 13:42:22.67ID:xWg3mBRt
検索して出てきたコードをいくつか試したけど2進数のせいか
どれもround2(0.285,2)が0.28になってしまう
このぐらいの桁数の丸めは需要ないのかな
0366デフォルトの名無しさん
垢版 |
2021/05/07(金) 12:10:57.72ID:lSMR/7Wh
結局きちんと動作するコードは見つからなかったよ
少し驚いたな
四捨五入は簡単なようでいて落とし穴のある難問なのかもね
0368デフォルトの名無しさん
垢版 |
2021/05/09(日) 03:07:28.88ID:EJ+wP34G
0.285 には以下の通り2進数に起因する誤差があるから、
内部的には 0.284999..... 扱いなんだろうね

> 29 - (0.285*100 + 0.5)
[1] 3.552714e-15
0369デフォルトの名無しさん
垢版 |
2021/05/09(日) 09:52:41.68ID:SqRAraa2
確認には直接フォーマット系の関数を使った方が簡単だと思う。
``` {r}
sprintf ('%.64f', 0.15);
```

多くの四捨五入の実装は`10`を掛ける演算を使っているが、注意が必要になる。
C99の標準関数を使えば、`round (x, digit = 0)`に相当する四捨五入は得られる。
``` {Rcpp}
#include <Rcpp.h>
#include <cmath>
// [[Rcpp::plugins(cpp17)]]
// [[Rcpp::export]]
double std_round (double x) {
return std::round (x);
}
```
`std_round`を使って`round (x, digit = 1)`に相当することをやろうとして、
次のようなコードを書くと、オワコンがやって来る。
``` {r}
sprintf ('%.64f', std_round (0.15 * 10) / 10);
```
数値計算と表示との整合性がとれていないにも関わらず、通常のプリント文を
見ている限り気が付きにくい厄介なバグになる。敗因は次の計算にある。
``` {r}
sprintf ('%.64f', 0.15 * 10);
```
四捨五入のスマートな実装方法は思いつかない
0370デフォルトの名無しさん
垢版 |
2021/05/09(日) 13:08:43.31ID:WMytKT+1
>>364
>>366
内部レジスタの値は正しく丸められてても
表示でこけてるだけって可能性もあるからな
疑うのは大事だけど
自分が勘違いしてないことを確認することも大事
0372デフォルトの名無しさん
垢版 |
2021/05/09(日) 17:31:33.95ID:EJ+wP34G
以下のページでRの丸めについて英語で説明してるね
ttps://cran.r-project.org/web/packages/round/vignettes/Rounding.html
最終的に多倍長演算ライブラリ gmp の使用を推奨してる

library(gmp)
myround <- function(x, digits){ return(as.numeric((x*10^digits+0.5)/(10^digits))) }
val <- as.bigq(285, 1000) # 0.285 を 285/1000 と分数指定
myround(val, digits=2)
0373デフォルトの名無しさん
垢版 |
2021/05/09(日) 23:08:26.19ID:CguSLRqk
そういえばPython2と3でなんかそんな問題があったような・・・
2ではできたのに3ではできなくなったみたいな。
0374372
垢版 |
2021/05/10(月) 02:45:27.57ID:IKdk2DQV
>>372
myround に floor (負の扱いによっては trunc) 付け忘れてた
補完して解釈してください
0375デフォルトの名無しさん
垢版 |
2021/05/10(月) 13:09:40.83ID:29Sz1uMY
sprintfでの確認やgmpライブラリの方法は勉強になるなあ

gmpを使った四捨五入は完璧!
ただbigqに変換するところの手作業が実用上のネックで、これを無くすのが難しそう
0376デフォルトの名無しさん
垢版 |
2021/05/11(火) 02:38:59.50ID:Y2pGc4AX
残念ながら多倍長数への変換の自動化は無理そうだ
手作業で一つひとつ変換するとなると直接手作業で四捨五入したほうがずっと早いしミスも少ない
Rで実用的な四捨五入は不可能なのだろうか
0377デフォルトの名無しさん
垢版 |
2021/05/11(火) 21:59:25.76ID:YVUucC+d
数値が "±nn.nnn" 形式の文字列だけなら以下の関数でどうだろ
("2.85e-1" とかだと駄目だけど)

library(gmp)

text2bigq <- function(txt){
denominator <- 10^nchar(txt) # 10^小数点以下の桁数より大きい整数
numerator <- as.integer(round(as.numeric(txt)*denominator))
return(as.bigq(numerator, denominator))
}

myround <- function(x, digits){ return(as.numeric(floor(x*10^digits+0.5)/(10^digits))) }
val <- text2bigq("0.285")
myround(val, digits=2)
0378デフォルトの名無しさん
垢版 |
2021/05/13(木) 21:08:11.50ID:WceB4CAD
text2bigqなんてよく考えつくなあ
これ引数のクオーテーション無くてもいけるね
それなら2.85e-1でも通る
ただ数値によって桁あふれのエラーが出るのが難点だね

丸め桁に対して数値の桁数が十分多いときは分岐して普通にroundすればいけるのかな?
0380デフォルトの名無しさん
垢版 |
2021/05/23(日) 20:29:57.49ID:PFrgvhmk
積と[作用](https://ncatlab.org/nlab/show/action)の関係
``` {r}
self = with (new.env (), {
id = function (a) a;
mult = function (bc) function (ab) function (a) bc (ab (a));
flip = function (abc) function (b) function (a) abc (a) (b);
r_curry_fw = function (abc) function (a) function (b) abc (a, b);
r_curry_bw = function (abc) function (a, b) abc (a) (b);
`%>%` = r_curry_bw (flip (id));
`%*%` = r_curry_bw (flip (mult));

f = function (x) function (y) paste0 ('(', x, ', ', y, ')', sep = '');
testthat::test_that ('', {
testthat::expect_equal (
1 %>% f (2) %>% f (3) # 作用
, 1 %>% (f (2) %*% f (3)) # 積
);
});
as.list (rlang::current_env ());
});
```
ユーザー定義の二項演算をサポートしないプログラミング言語では、
パイプは言語仕様に組み込まないと実現できないので、パイプを言語仕様に
取り入れるか否かという議論がぼちぼちある。その一方で、関数の合成については
眼中無しになっている。積を積極的にサポートするプログラミング言語が
少ないのは何故だろう?
Rに限った話ではないので、何らかの人間の特性が関わっているのかもしれない。

上のコードの空白や改行も含めた全ての文字中で、約20パーセントを"function"
という単語が占める。今度導入されたラムダ表記だと、バックスラッシュの
占める割合は約3パーセントにまで減る。個人的には、これが嬉しい。
パイプのオマケでの仕様変更な気がするが、塞翁が馬。
0381デフォルトの名無しさん
垢版 |
2021/05/24(月) 22:54:45.02ID:hj+NPZxB
ネイティブパイプは実際に使ってみると思ってたよりいまいちだった

うーん
cars |> head() |> {\(x) lm(dist ~ speed, x)}()
cars |> head() |> x => lm(dist ~ speed, x)

やはりこっちが楽
cars %>% head %>% lm(dist ~ speed, .)
0382デフォルトの名無しさん
垢版 |
2021/05/24(月) 23:22:48.20ID:JMNiLVpX
ネイティブパイプって任意の引数に値を渡せず第一引数限定なんだ。
それは昔ながらの引数が統一されていない関数だとちょっと使いにくいな。
0383デフォルトの名無しさん
垢版 |
2021/05/29(土) 00:00:07.23ID:Rm9o1hL0
これでもできたけどやはりめんどくさい
かなり見やすくはなった
cars |> head() |> lm(formula = dist ~ speed)
0384デフォルトの名無しさん
垢版 |
2021/06/06(日) 20:14:12.19ID:pDnwGISN
Rとは関係しないかもしれない:

1. [JavaScript and the next decade of data programming (2020) | Hacker News](https://news.ycombinator.com/item?id=27373388)
インタラクティブな可視化
1. [Learn R Through Examples (2020) | Hacker News](https://news.ycombinator.com/item?id=27404103)
賛否両論
1. [Yann LeCun Deep Learning Course 2021 | Hacker News](https://news.ycombinator.com/item?id=27387154)
ありがたや
1. [246B, Notes 3: Elliptic functions and modular forms | What's new](https://terrytao.wordpress.com/2021/02/02/246b-notes-3-elliptic-functions-and-modular-forms/)
四捨五入も"周期的"な関数`round (x + n) = round (x) + n`

``` {python round_py}
import numpy;
import mpmath;

def round_theta (x, h = 1e-6):
q = mpmath.exp (- 0.5 / h);
z = lambda x: x / 2j / h;
x = [mpmath.re (
mpmath.jtheta (3, z (x), q, 1) / 2j / mpmath.jtheta (3, z (x), q, 0)
) for x in x];
return numpy.array (x, dtype = numpy.float64);
```
0385デフォルトの名無しさん
垢版 |
2021/06/07(月) 17:32:24.52ID:KtrFRbYj
インタラクティブな可視化やアニメーションのプロットをやってみたいけど印刷してハンコが前提なせいで機会がない
0386デフォルトの名無しさん
垢版 |
2021/06/09(水) 21:41:53.94ID:Swmi7m7B
インタラクティブな可視化はどうしてもGUIとの連携が必要になるが、
アニメは連携が要らない。

``` {r, animation.hook = "gifski"}
self = with (new.env (), {
plot_text = \(...) \(text) {
c01 = c (0, 1);
plot (c01, c01, type = 'n', axes = F, ann = F);
text (mean (c01), mean (c01), text, ...);
};
purrr::map (strsplit ("あいうえお", "") [[1]], plot_text (cex = 3));
plot_text (cex = 5) ("\U1F44C");
as.list (rlang::current_env ());
});
```

`gifski`ならアニメ専用のコードを必要としない。このことは一長一短だと思うが、
手っ取り早い。
0387デフォルトの名無しさん
垢版 |
2021/06/10(木) 20:44:21.69ID:POtgR8d3
functionふたつ繋げてmapを受けやすくしてるのか
なるほどそういう方法もあるんだ
0388デフォルトの名無しさん
垢版 |
2021/06/12(土) 07:55:41.53ID:eU1Xef15
わかっていないところなので最初に結論:

* 混ぜるな危険
* 触らぬ神に祟りなし

[NSE](http://adv-r.had.co.nz/Computing-on-the-language.html)を使った関数と
[高階関数](https://en.wikipedia.org/wiki/Higher-order_function)を混ぜるな。

殆どの人にとって、何行でプログラムが書けるかは問題でなく、何分で結果が
得られるかが問題だと思う。見つけにくいバグを生みやすいテクは避けた方が
無難だと思う。

複数の表に対して同じ操作をするオモチャを考える。

``` {r sub, dependson = ""}
sub = with (new.env (), {
r_swap = \(abc) \(b, a) abc (a, b);
try_it = \(expr) tryCatch (expr, error = gettext);
as.list (rlang::current_env ());
});
```

つづく
0389デフォルトの名無しさん
垢版 |
2021/06/12(土) 07:57:10.18ID:eU1Xef15
``` {r map, dependson = "sub"}
sub = with (sub, {
`%map%` = purrr::map;
f = \(abc) \(...) \(a) abc (a, ...);
g = \(abc) \(b) \(a) abc (a, b);
datum = list (head (cars), tail (cars));
datum %map% f (`[`) (2 : 1) |> try_it () |> print ();
datum %map% g (`[`) (2 : 1) |> try_it () |> print ();
datum %map% f (r_swap (lm)) (dist ~ speed) |> try_it () |> print ();
datum %map% g (r_swap (lm)) (dist ~ speed) |> try_it () |> print ();
datum %map% f (subset) (dist == max (dist)) |> try_it () |> print ();
datum %map% g (subset) (dist == max (dist)) |> try_it () |> print ();
datum %map% f (dplyr::group_by) (dist) |> try_it () |> print ();
datum %map% g (dplyr::group_by) (dist) |> try_it () |> print ();
datum %map% f (dplyr::mutate) (b = dist + 1) |> try_it () |> print ();
datum %map% g (dplyr::mutate) (b = dist + 1) |> try_it () |> print ();
as.list (rlang::current_env ());
});
```

* `f (group_by) (dist)`と`g (group_by) (dist)`の違いは?
* `lm`と他のNSEとの違いは?

個人的には、これらの疑問を明朗会計できない。

おしまい
0390デフォルトの名無しさん
垢版 |
2021/06/12(土) 23:40:51.80ID:9FSs+4P4
グループ化はg()だけエラーになるのか
意識すらしてなかった部分だけど面白い検討結果だね
つまるところtidyverseの処理はtidyverse的に書くのが短くて早くてわかりやすいってことかな
0391デフォルトの名無しさん
垢版 |
2021/06/16(水) 22:11:03.04ID:GYxdWR2c
4.1になってWindowsでもtidyxlでxlsxを読めるようになっていることに気付いた
tidyxlはあまり使わないものの散らかったxlsx読むときには便利
0393デフォルトの名無しさん
垢版 |
2021/06/20(日) 18:54:38.51ID:dkTIMvj9
前説が長いので最初に結論:
>353は真似しないで欲しい。
[IHaskell](https://github.com/gibiansky/IHaskell)でコードを書く。
``` haskell
import GHC.Exts (groupWith)
分割 = groupWith length
仕事 (a : as) = (length a, length as + 1)
集計 = foldl push mempty where push out a = out ++ pure a
個々 = map
物件 = words "Lorem ipsum dolor sit amet, consectetur adipiscing elit"
比較 前処理 後処理 = lhs == rhs where
lhs = 後処理 $ 集計 . 個々 仕事 . 分割 <$> 前処理 物件
rhs = 後処理 $ 集計 <$> 個々 仕事 <$> 分割 <$> 前処理 物件
--
比較 Identity runIdentity
比較 (\a -> [a, a ++ a]) (flip (>>=) id)
比較 (\a j -> [a !! k | k <- j]) (flip id [1, 3, 5])
```
[関手](https://en.wikipedia.org/wiki/Functor)と呼ばれるデザインパターンを
使っている。このパターンをRに翻訳する。
``` {r self, dependson = ""}
self = with (new.env (), { id = \(a) a;
hom_snd = \(bc) \(ab) \(a) bc (ab (a)); flip = \(abc) \(b) \(a) abc (a) (b);
const = \(a) \(b) a; r_curry_fw = \(abc) \(a) \(b) abc (a, b);
r_curry_bw = \(abc) \(a, b) abc (a) (b); `%.%` = r_curry_bw (hom_snd);
as.list (rlang::current_env ());
});
```
つづく
0394デフォルトの名無しさん
垢版 |
2021/06/20(日) 18:56:30.60ID:dkTIMvj9
例題を次の記事から拝借する。[fmap]{#fmap}
* [Split-Apply-Combine and Map-Reduce in R](https://burtmonroe.github.io/SoDA501/Materials/SplitApplyCombine_R/)
``` {r fmap, dependson = "self"}
self = with (self, {
分割 = \(x) x |> split (~ cyl);
仕事 = \(x) coef (lm (mpg ~ wt, x));
集計 = \(x) purrr::map_dbl (x, \(x) x ["wt"]);
個々 = \(f) \(x) purrr::map (x, f);
物件 = mtcars;
比較 = \(管, 前処理, 後処理) with (list (`%管%` = 管), {
lhs = 前処理 (物件) %管% (集計 %.% 個々 (仕事) %.% 分割) |> 後処理 ();
rhs = 前処理 (物件) %管% 分割 %管% 個々 (仕事) %管% 集計 |> 後処理 ();
testthat::test_that ("", testthat::expect_equal (lhs, rhs));
# lookme
a = 前処理 (物件);
b = 管 (a, 分割);
c = 管 (b, 個々 (仕事));
d = 管 (c, 集計);
rhs = 後処理 (d);
testthat::test_that ("", testthat::expect_equal (lhs, rhs));
});

比較 (r_curry_bw (flip (id)), \(x) rbind (head (x), tail (x)), id);
比較 (purrr::map, \(x) list (head (x), tail (x)), id);
比較 (r_curry_bw (flip (hom_snd)), \(x) \(y) rbind (head (x), y), \(x) x (tail (物件)));

as.list (rlang::current_env ());
});
```
つづく
0395デフォルトの名無しさん
垢版 |
2021/06/20(日) 18:58:13.34ID:dkTIMvj9
1つめの"比較"は表を面倒くさい方法で`lm`している。2つめの"比較"は
表の代わりに表のリストを渡している。この場合の"%管%"が前回の投稿の
`%pipe%`に相当する。3つめの"比較"は表の代わりに表への写像を渡している。
このように関手パターンを使うと、引数が様々な"形状"に変化する。

本題に入る。以前、次のようなコードを書いた。[boxplot]{#boxplot}
``` {r, dependson = ""}
none = with (new.env (), {
. = ggplot2::ggplot (mtcars);
. = . + ggplot2::aes (x = factor (cyl), y = wt);
. = . + ggplot2::geom_boxplot ();
print (.);
});
```
`.`が定数である限り問題はないが、途中一箇所でも`. `が関数になると、
無限ループする。[fmap](#fmap)で`lookme`以下の変数`a..d`を全て`a`にすると、
三番目の"比較"で無限ループする。厄介なことに、全て`a`にしても、
一番目と二番目の"比較"は普通に動作する。関数内の変数は検索経路が
異なることに起因する。

単純化すると、次のコードは動くが、
``` {r, dependson = ""}
tryCatch ({
a = 1;
a = 2 + a;
a;
}, error = identity) |> print ();
```
つづく
0396デフォルトの名無しさん
垢版 |
2021/06/20(日) 19:00:12.82ID:dkTIMvj9
次のコードは無限ループする。
``` {r, dependson = ""}
tryCatch ({
a = 1;
a = \(.) . + a;
a (2);
}, error = identity) |> print ();
```
PythonとJSも似たような挙動をするので、現在主流のインタープリターでは
[boxplot](#boxplot)のような横着コードはご法度かもしれない。

おしまい
0398デフォルトの名無しさん
垢版 |
2021/06/26(土) 13:40:20.41ID:oCVQCLW/
特典がいろいろありそう。
* [Modern Text Features in R](https://www.tidyverse.org/blog/2021/02/modern-text-features/)

話変わって>384の続き まずコードを並べる。

``` {r dict, dependson = "round_py"}
dict = with (new.env (), {
who_max_h = \(h) \(x) {
x = x - max (x);
x = exp (x / h);
x / sum (x);
};
who_min_h = \(h) \(x) who_max_h (h) (- x);
ge_h = \(h) \(x) 0.5 * (1 + tanh (0.5 * x / h));
le_h = \(h) \(x) ge_h (h) (- x);
as.list (rlang::current_env ());
});
```
つづく
0399デフォルトの名無しさん
垢版 |
2021/06/26(土) 13:41:22.67ID:oCVQCLW/
``` {r round_r, dependson = "dict"}
dict = with (dict, {
round_theta = \(h) \(x) {
reticulate::py $ round_theta (reticulate::np_array (x), h);
};
round_1nn = \(h, n) {
self = (- n) : n;
\(x) purrr::map_dbl (x, \(x) {
x = self - x;
p = who_min_h (h) (0.5 * x * x);
sum (self * p);
});
};
round_count = \(h, n) {
self = 1 : n - 0.5;
\(x) purrr::map_dbl (x, \(x) {
sum (ge_h (h) (x - self) - ge_h (h) (- x - self));
});
};
as.list (rlang::current_env ());
});
```
つづく
0400デフォルトの名無しさん
垢版 |
2021/06/26(土) 13:41:58.53ID:oCVQCLW/
``` {r round_anime, dependson = "round_r", animation.hook = 'gifski', fig.width = 4 * 3}
dict = with (dict, {
x_max = 3;
x = x_max * seq (- 1, 1, len = 1e+2);
x_huge = x_max * seq (- 1, 1, len = 1e+3);
h = 10 ^ c (- 8, - 6, - 4, (- 3) : 3);
old_par = par (mfrow = c (1, 3));
on.exit (par (old_par));
purrr::map (h, \(h) {
if (h < 1) {
x = x_huge;
}
title = sprintf ('h = %.1e', h);
draw = \(y, ylab, ...) {
plot (x, y, type = 'l', ylim = c (- x_max, x_max), xlab = 'x', ylab = ylab, main = title, ...);
};
draw (round_theta (h) (x), 'theta');
draw (round_1nn (h, x_max) (x), 'deep');
draw (round_count (h, x_max) (x), 'shallow');
});
as.list (rlang::current_env ());
});
```
つづく
0401デフォルトの名無しさん
垢版 |
2021/06/27(日) 21:55:25.14ID:a078pUkp
書けるかな? 次の関数から始める。
~~~ {.r}
nearest_neighbor_integer = \(n) {
self = (- n) : n;
\(x) purrr::map_dbl (x, \(x) {
x = self - x;
j = which.min (0.5 * x * x);
self [j];
});
};
~~~
実数`x`に最も近い`(-n):n`中の整数を選んでいる。この関数の`which.min`
のところを`(- n):n`上の確率分布に変更したものを`round_1nn (h, n) (x)`
としている。`n`無限大の極限をとると、
[ヤコビのテータ関数](https://en.wikipedia.org/wiki/Theta_function)
で書けて`round_theta (x, h)`になる。ヤコビの三重積を有限和で近似して
`round_count (h, n) (x)`を得る。`n`を"容量"、`h`を"温度"と書く。

`ge_h (h) (x)`は低温極限でデジタル的な関数`ifelse (x >= 0, 1, 0)`になり、
`round_count`の低温極限は、容量が十分大きければ、ゼロと`x`の間にある
半整数`n + 1 / 2`の数を数える関数になる。
[1-nn](https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm)
で解いていた問題`round_1nn`が、ヤコビの三重積を通して、数え上げの問題
`round_count`に転化した形になっている。

アニメを見ると、低温では全部同じ感じだが、高温で`round_theta`とその他に
違いが出てくる。対称性`round_theta (x + k, h) == round_theta (x, h) + k`
にガードされて、`round_theta`だけは、高温極限でもゼロへの定数写像に
ならない。他の2つは、容量を有限で近似しているために、この周期性が
成り立たない。

つづく
0402デフォルトの名無しさん
垢版 |
2021/07/03(土) 00:33:16.13ID:gqk6Zgdk
四捨五入や浮動小数点の話を蒸し返す感じになるけど…

1.275-1と0.275を第二位でround()してみる
前者は0.27で後者は0.28になる
x1 <- c(1.275-1, 0.275)
round(x1, 2)
[1] 0.27 0.28

sprintf()で眺めてみるとなんとなく理由がわかる気がする
sprintf("%.24f", x1)
[1] "0.274999999999999911182158" "0.275000000000000022204460"


0.265でも試してみると両者とも0.26になる
x2 <- c(1.265-1, 0.265)
round(x2, 2)
[1] 0.26 0.26

sprintf()で眺めてみると…
sprintf("%.24f", x2)
[1] "0.264999999999999902300374" "0.265000000000000013322676"

偶数丸めで切り下げになるケースだけ誤差の範囲が広いのかな??
0403デフォルトの名無しさん
垢版 |
2021/07/04(日) 14:19:14.50ID:HlOj3EiR
書けるかな?書けたら話をぶった切ってごめん。who_max_hとge_hは個別に
覚えるより、次の関数から芋づる式に覚えた方が安上がりかもしれない。
ニョロニョロニョロ ドット ハスケル
max_h h a b = h * log (exp (a / h) + exp (b / h))
min_h h a b = - max_h h (- a) (- b)
ニョロニョロニョロ
max_hの低温極限はRのpmaxになる。関数
reduce_max (h, x) := reduce (.init = - Inf, .x = x, .f = max_h)は
log_sum_expと呼ばれ、低温極限がRのmaxになる。reduce (0, x, +)にsumを
使うのと同じで、"モノイドはreduceしとけ"パターンの1つになっている。
reduce_max (h, x)をxについて微分すると、soft_maxになり、低温極限がRの
which.maxをワンホットで表したものになる。コードではsoft_maxをwho_max_h
と書いている。関数max_zero (h, x) := max_h (h, x, 0)の低温極限はreluの
有限温度版にあたるsoft_plusと呼ばれる。max_zero (h, x)をxについて微分
すると、シグモイド関数になる。コードではシグモイド関数をge_hと書いている。
ge_h (h, x)をxについて微分すると、Rのdlogisになる。どの関数も低温極限で
デジタル的な関数になり、アルゴリズム的な描像を与える。
温度hをプランク定数だと思うと、マスロフの脱量子化という言い方も理解できる。
シグモイド関数はフェルミ分布関数とも呼ばれるが、対となるボース分布関数は
zero_maxの逆写像を微分して得られる。ボース分布関数を使っても、
ヤコビの三重積経由で、また別の低温極限が四捨五入になる関数が作れる。
reduce_maxの連続版はlog_integral_expとなるが、reduce_minの連続版は
ラプラス近似と呼ばれる。ラプラス近似の補正第一項を正規分布にとることが
多いので、max_zeroが正規分布に対応すると見ることもできる。また、
max_zero (h, reduce_max (h, x))をxについてルジャンドル変換すると、
soft_maxの負のエントロピーになる。

おしまい
0404デフォルトの名無しさん
垢版 |
2021/07/04(日) 15:45:28.20ID:17wSvTes
どうせ過疎だから話をぶった切るなんて気にせず好きに書き込んでいいと思うよ
0406デフォルトの名無しさん
垢版 |
2021/07/05(月) 18:25:33.98ID:ZKGJ/Wxf
最近知ったpurrrとpatchworkの組み合わせは役に立たないけど面白いと思った

library(patchwork)
library(tidyverse)

iris %>%
nest_by(Species) %>%
mutate(plot = list(ggplot(data, aes(Sepal.Length, Petal.Length)) + geom_point() + ggtitle(Species))) %>%
pull(plot) %>%
reduce(`+`)

https://i.imgur.com/Qet93Lj.png
0407デフォルトの名無しさん
垢版 |
2021/07/10(土) 20:16:42.51ID:MrP/qszp
ルジャンドル変換を一般化した凸共役についてまとまった表がある。

* [凸共役](https://en.wikipedia.org/wiki/Convex_conjugate)

この記事中の表の下二行と次の記事を照らし合わせてみる。

1. [Softmax Cross-Entropy and Negative Sampling](https://arxiv.org/abs/2106.07250)
2. [Noise Contrastive Estimation](https://arxiv.org/abs/1202.3727)

| 凸 | 凸共役 | Bregman情報量 |
|:--|:--|:--|
| ln (1 + e^x) | x^* ln x^* + (1 - x^*) ln (1 - x^*) | KL情報量 |
| - ln (1 - e^x) | ln p (x^*) + x^* ln (1 - p (x^*)) | NCE |

p (x) := 1 / (1 + x)

前に書いた四捨五入と対比すると、KLの方がフェルミ分布関数、NCEの方が
ボーズ分布関数に対応する。四捨五入の場合はフェルミ分布関数とボーズ分布関数
の裏にテータ関数がいた。KLとNCEの裏にも何かいるかな?
論文をちゃんと読めば答えもしくはヒントがあるかもしれない。

JIS丸めの話がどうしてこうなった?JIS丸め恐るべし。
0408デフォルトの名無しさん
垢版 |
2021/07/11(日) 09:10:03.37ID:XVisAPLs
JIS丸めや四捨五入については皮肉なことにExcelのほうがずっと信用できたりする
良くも悪くもうまいこと誤差処理してくれてる
402の数値をExcelで四捨五入するとすべて期待どおりの結果が得られる
0412デフォルトの名無しさん
垢版 |
2021/08/08(日) 09:20:58.98ID:0/5jqUiQ
readr2.0.0から複数ファイルの読み込みが可能になっていた
map_dfr()使わなくていいし読み込みも圧倒的に速くて良い
0413デフォルトの名無しさん
垢版 |
2021/08/08(日) 12:25:05.96ID:67RjEJ28
readr 2.0.0のwrite系関数は、カラム名に日本語があると正しく処理されないバグがないか?
0414デフォルトの名無しさん
垢版 |
2021/08/09(月) 17:11:15.46ID:ScMN2hA5
write_csv試したけど列名に日本語あっても問題なかった
でもデータも日本語にしたらたしかに化けた
ちなWindows
0416デフォルトの名無しさん
垢版 |
2021/08/09(月) 23:00:48.70ID:azeQoSgE
>>414
追確認ありがとう。やっぱり化けるか。

カラム名の出力抑止したら日本語含むデータは無事に出力されたので、当面、これで逃げとく。
0417デフォルトの名無しさん
垢版 |
2021/08/10(火) 19:09:10.38ID:gvV+H24C
>>416
write_csvのヘルプ見たらutf8で保存されるとあったからこれが理由ぽい
データと列名の両方をutf8にしたら化けずに出力できた

具体的には以下を噛ませた
#データ変換
    %>% mutate(across(where(is.character), enc2utf8)) %>%
#列名変換
     %>% rename_with(enc2utf8) %>%
0418デフォルトの名無しさん
垢版 |
2021/08/28(土) 10:48:33.69ID:C1PCSCJR
RStudioチートシート一式が更新されてる
dplyrなんかは構文が少し違ってきてたからありがたい
0419デフォルトの名無しさん
垢版 |
2021/09/01(水) 11:39:20.62ID:tJCXmvec
>>413 自己レス
readr 2.0.1にアップデートしたら>>417の変換を行わないでもヘッダー、データに日本語を含む場合でも意図した通りに出力されるようになった。
0421デフォルトの名無しさん
垢版 |
2021/10/01(金) 16:50:28.77ID:zXL6XNPn
間違って機械学習スレに書き込んでしまったので、こちらに再書き込み。

Rmdファイル名に日本語が入っているとRStudioでread系の出力が表示されなくなるという謎のトラップに嵌った。
0423デフォルトの名無しさん
垢版 |
2021/10/03(日) 00:12:40.33ID:TxMIGVRv
read.csv関数、readr::read_csv関数、readxl::read_excel関数などを端折ってread系と書いてしまった。
動くんだけどエラーも何も表示されないという現象だった。
0424デフォルトの名無しさん
垢版 |
2021/10/03(日) 22:36:37.13ID:A1Dyon2q
適当に日本語のrmdからread_csv試してみたけど動作もメッセージも特に問題ないみたい
自分が条件を勘違いしてるだけかもだけど
0426デフォルトの名無しさん
垢版 |
2022/02/27(日) 21:39:32.73ID:9Ko2k5KG
Rstudioで100個のtxtファイル
(中身はTsvで3万行2列、1列目は全ファイル共通)
を3万行、101列のマトリクスファイルにしようとしています。

left_joinで1列目をキーにして結合するためにデータを100個読み込む際に
lf <- list.files(full.names = T)
data <- lapply(lf,read.delim)
を用いたのですが、
mat <- full_join(data)で結合させようとすると
'full_join' をクラス "list" のオブジェクトに適用できるようなメソッドがありません
となってしまいました。
別の関数でこのような結合が可能でしょうか。
0427デフォルトの名無しさん
垢版 |
2022/02/27(日) 21:47:12.25ID:9Ko2k5KG
>>426
dplyr::bind_cols()
があるとわかり(rowsしか見つけられていませんでした)、
こちらでdata2<-dplyr::bind_cols(data[1],data[2])
でエラーが出ないことまで分かったのですが、
今度は 1列目が全残りしてしまいました。。。
0428デフォルトの名無しさん
垢版 |
2022/02/27(日) 22:16:06.74ID:gyXBEzmR
>>426
詳細はわかりませんがとりあえず読み込みの部分を以下にすれば結合されたdata.frame(tibble)ができると思います
data <- readr::read_tsv(lf)
0431デフォルトの名無しさん
垢版 |
2022/02/27(日) 22:52:32.27ID:CQidPupJ
>>426
確認だけど各ファイルの一列目は言わるインデックスで、どのファイルも全く同じ値で全く同じ並びなの?
例えば、1,2,3,...30,000のような。
0432デフォルトの名無しさん
垢版 |
2022/03/13(日) 15:26:37.06ID:eNLgiL5g
>>430
コメントいただきありがとうございます。

data2<-dplyr::left_join(data[1],data[2])
UseMethod("left_join") でエラー:
'left_join' をクラス "list" のオブジェクトに適用できるようなメソッドがありません
となってしまいました。

>>431
そのご認識であっています
0433デフォルトの名無しさん
垢版 |
2022/03/13(日) 16:14:58.16ID:yMboFGZP
>>432
1列目がすべて同じ値でデータを結合させるキーとして使う必要がなければ、こんな感じ。
最後に1列目をバインドかジョインさせれば、概ね目的が達成できるのではないかと。

require(tidyverse)

# サンプルデータの作成
for (i in 1:10) {
data.frame(
a = seq(from = 1, to = 100),
b = rnorm(100)
) %>%
readr::write_excel_csv(file = paste0("./sample_data/sample_", i, ".csv"))
}

# サンプルデータの結合
list.files("./sample_data", full.names = TRUE) %>%
purrr::map_dfc(.f = function(x){readr::read_csv(x) %>% dplyr::select(2)})

列名でデータが識別出来るようにしたければ、もうひと工夫必要だけど。
0434デフォルトの名無しさん
垢版 |
2022/03/13(日) 16:23:27.75ID:yMboFGZP
ファイル名を列の識別に使うとこんな感じ

# サンプルデータの読み込みと結合
list.files("./sample_data", full.names = TRUE) %>%
purrr::map_df(.f = function(x){readr::read_csv(x) %>%
dplyr::mutate(file = basename(x))}) %>%
tidyr::pivot_wider(names_from = file, values_from = b)
0435デフォルトの名無しさん
垢版 |
2022/03/13(日) 16:44:17.21ID:eNLgiL5g
>>433
おお!ありがとうございます。
解釈しながら進めてみます。
0436デフォルトの名無しさん
垢版 |
2022/03/13(日) 16:44:28.45ID:yMboFGZP
>>434の方は、1列目をキーにleft_joinするのと同じ結果になるので、こちらの方が処理としては汎用性が高いかも。

# サンプルデータの作成
for (i in 0:4) {
data.frame(
a = seq(from = 1, to = 100),
b = rnorm(100)
) %>%
readr::write_excel_csv(file = paste0("./sample_data/sample_", i, ".csv"))
}

# サンプルデータの作成(aの値の範囲を少し変えてある)
for (i in 5:9) {
data.frame(
a = seq(from = 51, to = 150),
b = rnorm(100)
) %>%
readr::write_excel_csv(file = paste0("./sample_data/sample_", i, ".csv"))
}

# サンプルデータの読み込みと結合(aが一致しない場合は欠損値NAとなる)
list.files("./sample_data", full.names = TRUE) %>%
purrr::map_df(.f = function(x){readr::read_csv(x) %>%
dplyr::mutate(file = basename(x))}) %>%
tidyr::pivot_wider(names_from = file, values_from = b)
0437デフォルトの名無しさん
垢版 |
2022/03/13(日) 18:12:08.92ID:Hs1I9giv
>>427
一列目がすべて同じとのことなのであれば、427の続きで
 data2[ , -seq(3,199,2)]
とすれば必要な列だけ抽出できると思います
あとはマトリクスに変換してください


join系でうまく行ってなかったのはリストの扱いがわからなかったからなのですね
リストにアクセスする場合、
data[1]でなくdata[[1]]としてデータフレームを取り出します
0438デフォルトの名無しさん
垢版 |
2022/03/17(木) 15:47:55.89ID:E8UbWdL+
>>437
すみません。本題ではないと思うのですが、
> for (i in 1:10) {
+ data.frame(
+ a = seq(from = 1, to = 100),
+ b = rnorm(100)
+ ) %>%
+ readr::write_excel_csv(file = paste0("./sample_data/sample_", i, ".csv"))

のところで
エラー: Cannot open file for writing:* './sample_data/sample_1.csv'

が出てしまいました・・・
0440デフォルトの名無しさん
垢版 |
2022/03/17(木) 20:07:17.36ID:gf49ge7R
なお、そのコードはサンプル用のデータファイルを作るだけだから、既にデータファイルがあるなら作らなくても構いません。
0441デフォルトの名無しさん
垢版 |
2022/03/18(金) 00:14:42.67ID:XJUTI8hL
>>438
繰り返しになりますが、427にあるようにbind_cols(data)でdata2まで作成できたのであれば、あとは437の式で重複するindex列を消せば抽出が完了します
マトリクス形式にするにはas.matrix()を使います


エラーが出たという433のコードについては439さんがもう回答してくれていますが念のため補足説明します
そのコードは作業ディレクトリにsample_dataという名前のフォルダを作ってから試す必要があります
Windowsならエクスプローラからフォルダを作成すれば良いでしょう
Rでコードを実行するとそのフォルダの中にテスト用のcsvが作成されます(フォルダを覗いてみてください)
そのテスト用csvを使った汎用的な方法が色々と紹介されていますので、どういう挙動をするか試してみてください
あとは自分の実データに応用すればOKです
0443デフォルトの名無しさん
垢版 |
2022/07/02(土) 21:56:48.95ID:joP41R1K
VScodeに移行するか悩んでいる
0444デフォルトの名無しさん
垢版 |
2022/07/03(日) 10:10:53.08ID:HeQkxcLp
利点欠点は知らないけどとりあえず試しに移ってみては
0445デフォルトの名無しさん
垢版 |
2022/08/07(日) 01:03:05.72ID:9gYsg8zx
Vscodeに移行完了。
他の言語と環境同じなのは楽。簡単に複数のプロセスを走らせることができて便利。
環境変数とかの設定は大変。
0446デフォルトの名無しさん
垢版 |
2022/08/08(月) 21:50:31.99ID:Da5wHwf0
RStudioもPositだかに名称変更して多言語対応を前面に出すらしいから色々迷うところだね
0447デフォルトの名無しさん
垢版 |
2022/08/16(火) 11:20:03.64ID:2x3mrzZQ
秋光
0448デフォルトの名無しさん
垢版 |
2022/08/18(木) 23:20:26.19ID:LfSntVST
tidyverseにlubridateが追加されたらしい
これは便利かも
0449デフォルトの名無しさん
垢版 |
2022/10/22(土) 22:36:46.32ID:aNbd4mog
書けるかな?
0450デフォルトの名無しさん
垢版 |
2022/10/22(土) 23:25:40.91ID:aNbd4mog
ALTREPを勉強したノート:
https://www.klgrth.io/paste/n3aj8
有効期限の選択肢が最長2日で、2日経つと消えちゃう。
一応HTMLということでアップしたが、HTMLとして表示できない。
ダウンロードしてブラウザーで開くと、多分、表示できると思う。
中身はRというより、殆どC++とJSで、偶に日本語が入るという感じになっている。
0451デフォルトの名無しさん
垢版 |
2022/10/25(火) 21:49:06.83ID:Q2z+UpND
facet_wrapで強制的に任意の行×列にする方法がわからない
ggh4xのfacet_wrap2はx軸が別の値に変わる致命的なバグがあって駄目だった
cowplotとかで強引にやるしかないかな
0452デフォルトの名無しさん
垢版 |
2022/10/29(土) 23:39:26.00ID:rG09h/C5
こういう事?
[r - What's the difference between facet_wrap() and facet_grid() in ggplot2? - Stack Overflow](https://stackoverflow.com/questions/20457905/whats-the-difference-between-facet-wrap-and-facet-grid-in-ggplot2)

```{r}
g <- ggplot2::ggplot (ggplot2::mpg, ggplot2::aes (displ, hwy))
g + ggplot2::facet_grid (cyl ~ class)
g + ggplot2::facet_wrap (cyl ~ class)
```

前回のALTREPから離れて配列型のイテレーターに進んでみた。
https://www.klgrth.io/paste/wcdat
今回のファイル形式はRmdにしてみた。
Rcppが使える環境なら動作するんじゃないかと思う
0453デフォルトの名無しさん
垢版 |
2022/10/31(月) 12:33:41.51ID:dQiGvC9o
例えばmpgデータならcylでもclassでも常に3*3のサイズにfacetしたい(不足分はスペース)
0454デフォルトの名無しさん
垢版 |
2022/11/02(水) 19:51:09.19ID:p084R0I6
結局patchworkのplot_layout()が良かった
facet_wrap2()よりかなりめんどくさいが仕方ない
0455デフォルトの名無しさん
垢版 |
2022/11/06(日) 00:02:51.66ID:lzqAKK7B
RのヒープからC++のコンテナーで使うメモリを確保するようにした:
https://www.klgrth.io/paste/ampar
今回はサードパーティのライブラリを使っているので、そのままでは
コンパイルできないと思う。

* [GitHub - martinus/unordered_dense: A fast & densely stored hashmap and hashset based on robin-hood backward shift deletion](https://github.com/martinus/unordered_dense)

ヘッダーファイル一枚のライブラリなので、Rmdの中にヘッダーファイルを
コピペすればコンパイルできるようになると思う。
0456デフォルトの名無しさん
垢版 |
2022/11/07(月) 09:11:56.91ID:dlXH2Z0U
色々とRの深堀りしてるのね
0457デフォルトの名無しさん
垢版 |
2022/11/23(水) 17:00:11.90ID:lyqj2jDo
前回のカウンターの続きで最終回
[zwzg9](https://www.klgrth.io/paste/zwzg9)
今回は`ankerl`に加えて`boost`も使っている。`boost`はヘッダー一枚
というわけにはいかないので、面倒かもしれない。使っているのは、
`hash_value`と`hash_combine`という2つの関数だけなので、適当な関数で
差し替えられると思う。`NA`と`NaN`の関係を調べている節は、
intelエンディアンのみの対応で、armエンディアンでは動作しないと思う。
実を言うと、`NaN`がいっぱいあることを知らなかった。1954は何の年だろう?

ALTREPを勉強した時にかなりギットハブを徘徊した。そこが勉強のピークだっと
思う。今回の実装では、殆どRの勉強はせずに、知ってる関数だけを使っている。

1. `TYPEOF / ALTREP`
1. `Rf_xlength`
1. `DATAPTR_OR_NULL / DATAPTR / XXX_ELT`
1. `Rf_allocVector`

違うアプリケーション、例えば、評価系だと違う関数セットになって、
また勉強が必要になるかもね。
0458デフォルトの名無しさん
垢版 |
2022/11/25(金) 22:31:31.64ID:hVmxUGt9
ファセットの問題は{facetious}のfacet_wrap_strict()でもできた
こっちは問題なさそう
0459デフォルトの名無しさん
垢版 |
2022/11/26(土) 18:24:12.54ID:ZkJ8SBS0
[facet_wrap_strict](https://github.com/coolbutuseless/facetious)と
`facet_wrap`を並べてみる。

``` {r na_1954, dependson = ""}
. = dplyr::mutate (mtcars, cyl = factor (cyl, lev = c (1 : 8, 1000L)))
. = ggplot2::ggplot (., ggplot2::aes (mpg, wt))
. = . + ggplot2::geom_point ()
. + ggplot2::facet_wrap (~ cyl, nrow = 3, ncol = 3)
. + facetious::facet_wrap_strict (~ cyl, nrow = 3, ncol = 3)
. + ggplot2::facet_wrap (~ cyl, nrow = 3, ncol = 3, drop = F)
```

神エクセル繋がりということで
[A Bayesian probability worksheet](https://terrytao.wordpress.com/2022/10/07/a-bayesian-probability-worksheet/)
0460デフォルトの名無しさん
垢版 |
2022/11/28(月) 18:09:29.71ID:esP8vKsO
その例で行くなら…
cylはいじらずそのままでfacet_wrap_strictするのが求める図かな
0461デフォルトの名無しさん
垢版 |
2023/01/19(木) 11:03:41.55ID:KKbwsgWQ
RのS5クラス使って継承する場合、コンストラクタ中で継承するクラスのコンストラクタを呼ぶことはできないのかな?
つまりクラスAとクラスBを定義して、クラスBがクラスAを継承している場合、クラスBのコンストラクタ中でクラスAのコンストラクタを呼ぶ方法
ちょっとググったらS4クラスは出来そうなんだが、S5クラスのは解決策が見当たらんかった
別途自前でクラスAのコンストラクタ本体を定義して、クラスBのコンストラクタからそれを呼ぶしかないか?!
0462デフォルトの名無しさん
垢版 |
2023/01/20(金) 19:06:37.10ID:tvsG8hGF
R6はどうだろう
0463デフォルトの名無しさん
垢版 |
2023/02/04(土) 08:53:58.96ID:QWz+y8KS
dplyrを1.1.0にしてみた
.byはまあまあ便利だけどtally()には使えなかった
0465デフォルトの名無しさん
垢版 |
2023/02/14(火) 18:38:12.15ID:dFdG4M+K
ヒヤリハットみたいな駄洒落はどこでもあるのね
0466デフォルトの名無しさん
垢版 |
2023/02/16(木) 19:25:35.83ID:76X7tEQ5
こうした言葉を思いつくのは才能なんだろうね。

Rだと簡単にハイゼンバグの例を作れた。

``` {r a_10850, dependson = ""}
uncertainly = with (new.env (), {
plus = \(x) \(y) x + y
x = 1L
plus_1 = plus (x)
x = 1000L
plus_1 (2) |> print ()
});
```
アレレ?ということでデバッグ文を入れてみる。

``` {r a_29042, dependson = ""}
principle = with (new.env (), {
plus_debug = \(x) {
cat ("Schr?dinger says ", x, "\n", sep = "")
\(y) x + y
}
x = 1L
plus_1 = plus_debug (x)
x = 1000L
plus_1 (2) |> print ()
});
```
デバッグ文の有無で挙動が変わる。`uncertainly`の挙動は、バグではなく、
言語仕様だと思った方が良いと思う。
`uncertainly`の挙動を防ぐには関数`force`を使えば良い。

* [How to not fall into R's 'lazy evaluation trap](https://stackoverflow.com/questions/29084193)
0467デフォルトの名無しさん
垢版 |
2023/02/16(木) 19:27:35.51ID:76X7tEQ5
タイトルに"遅延評価"が入っているが、遅延評価自体の問題ではなく、
Rの実装に原因がある。Haskellも遅延評価だが、`uncertainly`のような
挙動が起きれば、Haskellはその存在意義を失う。

``` ghci
import Data.Functor.Identity (Identity (..))
:{
uncertainly :: (Monad f) => f Int
uncertainly = do
x <- pure 1
plus_1 <- pure (x +)
x <- pure 1000
pure $ plus_1 2
:}
runIdentity uncertainly
flip ($) () uncertainly
maybe 0 id uncertainly
```
<pre>
3
3
3
</pre>
言語仕様レベルでのトレードオフかもしれない。

* 局所最適化と大域最悪化
* 整合性とコンパイル時間
* 等など
0468デフォルトの名無しさん
垢版 |
2023/02/19(日) 11:12:54.40ID:CwNaXfgw
magrittrの例を少し改変

# fns
first <- function(x){
message("first")
invisible(x)
}

second <- function(x){
message("second")
invisible(x)
}

# lazy
NULL %>% first() %>% second()

# eager
NULL %!>% first() %!>% second()
0469デフォルトの名無しさん
垢版 |
2023/02/19(日) 23:57:13.24ID:5hVGJ6gZ
ビックリパイプは知らなかった。"抜かりなし"だね。ただし、ビックリパイプは
ハイゼンバグとは関係ないかな。

ハイゼンバグから離れて、宇宙大戦争について書いてみたい。
`lapply`等のループ系の関数は、最終的にC関数`R_forceAndCall`を呼び出す。

* [apply.c](https://github.com/wch/r-source/blob/trunk/src/main/apply.c)

Rは、"フォースと共にあらんことを"などと呑気なことを言っている場合ではなく、
フォースと共にあらねば死んでしまう。
前回のコード`uncertainly`は変数`x`の使い回しが敗因だが、ループ系の関数
では変数を使い回すしかない。そのために、ループ系の関数ではフォースが必須
になっている。98パーセントぐらいの使用例では、フォース抜きでも動作する
(当社調べ)が、残りの2パーセントでコケる。僅か2パーセントでも、
プログラミングをギャンブルにしないためには、穴を塞いでおく必要がある。
0470デフォルトの名無しさん
垢版 |
2023/02/23(木) 21:58:25.40ID:OvjjRMrU
do.call()ならどうだろう
0471デフォルトの名無しさん
垢版 |
2023/02/26(日) 00:14:58.50ID:Qcp1BikG
上のコード`uncertainly`の挙動を"プロミスの罠"と書くことにする。
ここでの"プロミス"は、JSの"プロミス"ではなくて、Rでの"変数"の
実装方法を指す。

* [6 Functions | Advanced R](https://adv-r.hadley.nz/functions.html)

この記事には次の一節がある。

> You cannot manipulate promises with R code. Promises are like a **quantum state:**: ...

多分、ここでの"量子状態"はハイゼンバグと同じ現象を指しているんだと思う。
観測すると、状態が変化してしまう。

関数`do.call`自体はプロミスの罠と関係しないと思う。

``` {r a_28697, dependson = ""}
do.call (`+`, list (1L, 2L))
```
Pythonだと次のコードに対応する。

``` {python a_10786, dependson = ""}
(lambda x, y: x + y) (* range (1, 3))
```
殆どのプログラミング言語で、関数の引数リストは
[一級市民](https://en.wikipedia.org/wiki/First-class_citizen)
でないように思う。一級市民でない代わりに、一級市民の配列からの変換が
用意されている。Pythonでは`*`という関数がビルトインで用意されている。
Rでは引数リストを直接作れるかもしれないが、`do.call`で配列から
変換するのが一般的だと思う。
0472デフォルトの名無しさん
垢版 |
2023/02/26(日) 23:03:36.96ID:Qcp1BikG
書けるかな?
0473デフォルトの名無しさん
垢版 |
2023/02/26(日) 23:09:42.38ID:Qcp1BikG
自分の知る限り、プロミスの罠にハマるのは次のパターンに限られる。

~~~ {.r}
x = "hello"
g = f (x)
x = "world"
g ()
~~~
"関数を返す関数"`f`に、"変数"`x`を代入した時にプロミスの罠が可能性が
出てくる。Rの評価戦略はHaskellと同じ
[コールバイニード](https://en.wikipedia.org/wiki/Evaluation_strategy)
に分類されている。上の例では、次の場合にプロミスの罠が発生する。

1. 関数`f (x)`の中で引数`x`がニードにならず、
1. 返り値の関数`g`に渡される。

次の例はプロミスの罠が発生する。

``` {r a_20914, dependson = ""}
rude = with (new.env (), {
const = \(x) \(...) x
x = "hello"
g = const (identity (x))
x = "world"
g () |> print ()
});
```
関数への代入はニードでないので(by definition)、関数適用の連鎖
`const (identity (x))`の中にはニードがない。そのために、最終的に`g ()`が
コールされるまで引数`x`は評価されない。コード`g ()`がコールされた時点で
引数`x`の定義を探しに行くので、プロミスの罠にハマる。
0474デフォルトの名無しさん
垢版 |
2023/02/26(日) 23:11:33.81ID:Qcp1BikG
コールバイニードを実現するためには、コンパイラーが内部的に次のように
書き換える必要があると思う。

``` {r a_1451, dependson = ""}
polite = with (new.env (), {
const = \(x) \(...) x
x_1 = "hello"
g = const (identity (x_1))
x_2 = "world"
g () |> print ()
});
```
[静的単一代入](https://en.wikipedia.org/wiki/Static_single-assignment_form)
と呼ばれる操作と同じだと思う。この書き換えはループ処理では必須になる。
コード`rude`はアカン奴として切り捨てることができるかもしれないが、
ループ処理では変数の多重定義が避けられない。Rでは、何らかの理由で、
この書き換えが省略されているために、プロミスの罠が発生するのかな?と
思っている。

コード`rude`からコード`polite`への書き換えを上とは異なる形で行ってみる。
Rではできないので、Pythonを使う。
0475デフォルトの名無しさん
垢版 |
2023/02/26(日) 23:12:32.78ID:Qcp1BikG
``` {python a_14213, dependson = ""}
##| cache: false
#
def none ():
id = lambda a: a
const = lambda x: lambda * y: x
def lhs ():
x = "hello"
g = const (id (x))
x = "world"
return g ()
def rhs ():
return (lambda x: (lambda g: (lambda x: g ()) ("world")) (const (id (x)))) ("hello")
assert lhs () == rhs ()
none ();
```
関数`lhs`から関数`rhs`への書き換え規則は次のようになる。[rule]{#rule}

~~~ {.python}
y = f (x)
z = g (x, y)
rest (x, y, z)
==
(lambda y:
z = g (x, y)
rest (x, y, z)
) (f (x))
==
(lambda y: (lambda z: rest (x, y, z)) (g (x, y))) (f (x))
~~~
0476デフォルトの名無しさん
垢版 |
2023/02/26(日) 23:25:12.65ID:Qcp1BikG
この書き換え規則を適用した結果、関数`rhs`では、静的単一代入への変換は、
[ラムダ計算](https://en.wikipedia.org/wiki/Lambda_calculus)のアルファ変換
に置き換わる。この意味では、静的単一代入とアルファ変換は同じことになる。
実際のコードでは、分岐、ループ、副作用が入ってくるので、こんな単純は
話では済まないと思うが、極度に単純化すると、静的単一代入とアルファ変換は、
単に、方言の違いということになる。

Rの場合は、書き換え規則[rule](#rule)は等価な変換にならない可能性がある。
特に、プロミスの罠が現れた場合は、挙動が変わると思う。

余談だが、書き換え規則[rule](#rule)をモナドに拡張したものがHaskellの
[do-記法](https://en.wikibooks.org/wiki/Haskell/do_notation)になっている。

~~~ {.python}
y <- f (x)
z <- g (x, y)
rest (x, y, z)
==
kleisli-extension (lambda y:
z <- g (x, y)
rest (x, y, z)
) (f (x))
~~~
モナドが恒等関数の場合に[rule](#rule)に一致するので、do-記法を
[rule](#rule)の拡張と言って差し支えないと思う。

おしまい
0477デフォルトの名無しさん
垢版 |
2023/03/01(水) 23:45:23.13ID:X+BX12eb
[トランスフォーマー](https://en.wikipedia.org/wiki/Transformer_(machine_learning_model))
についての記事: オーサーヒアーかな?

* [Coinductive guide to inductive transformer heads](https://news.ycombinator.com/item?id=34970877)

中を読んでいないが、アテンション機構を
[ホップ代数](https://en.wikipedia.org/wiki/Hopf_algebra)で説明、もしくは、
ホップ代数を使ってアテンション機構の類似物を導出するという話のようだ。
この手の救世主的な話はがっかりすることが多いので、過大な期待は禁物かも。
0478デフォルトの名無しさん
垢版 |
2023/03/02(木) 07:01:07.09ID:FFiKbXDz
g = do.call(const, list(x)) ではどうだろう
0479デフォルトの名無しさん
垢版 |
2023/03/02(木) 07:26:39.75ID:rDVggB7z
RのS5クラス定義(setRefClass)ってsave、loadでシリアライズ、デシリアライズ出来ないのか
デシリアライズされたメンバ関数にアクセスできない
0480デフォルトの名無しさん
垢版 |
2023/03/04(土) 20:31:08.80ID:0X36s/jF
## Rにおけるオブジェクト指向への取り組み
趣旨は新規フレームワークR7の紹介だが、既存のフレームワークの俯瞰図
としても使いやすいと思う。

* [What is R7? A New OOP System for R](https://www.jumpingrivers.com/blog/r7-oop-object-oriented-programming-r/)

## オブジェクト指向とは?
次の記事を取り上げてみる。

* [Object Oriented Programming Features of Rust](https://doc.rust-lang.org/book/ch17-00-oop.html)

内容については賛否両論だと思う。しかし、箇条書きできるということが、
オブジェクト指向が単一の概念でないことを示しているように思う。

## S3はオブジェクト指向か?
比較のために、S3のキーワード`default`を使わないで書く。

``` {r a_3770, dependson = ""}
none = with (new.env (), {
to_string = \(x, ...) UseMethod ("to_string", x)
as_string = \(x, ...) UseMethod ("as_string", x)

to_string.Base = \(x, ...) as_string (x, ...)
as_string.Base = \(x, ...) to_string (x, ...)

to_string.Derived = \(x, ...) paste0 ("hello ", class (x))
as_string.Derived = as_string.Base

structure (identity, class = "Derived") |> as_string () |> print ()
});
```
`Base`クラスは、関数`to_string`か関数`as_string`の"どちらか1つを実装せえ"と言っている。
0481デフォルトの名無しさん
垢版 |
2023/03/04(土) 20:34:04.91ID:0X36s/jF
似た内容をPythonで書いてみる。

``` {python a_8560, dependson = ""}
class Base:
def to_string (self): return self.as_string ()
def as_string (self): return self.to_string ()

class Derived (Base):
def to_string (self): return "hello " + type (self).__name__

Derived ().as_string ()
```
Haskellで書いてみる。

``` haskell
class Base_ a where
to_string :: a -> String
to_string = as_string
as_string :: a -> String
as_string = to_string

instance Base_ () where
to_string :: () -> String
to_string = ("hello " ++) . show

as_string ()
```
<pre>
"hello ()"
</pre>
0482デフォルトの名無しさん
垢版 |
2023/03/04(土) 20:37:50.63ID:0X36s/jF
ワンセットの関数群をインターフェースと書く。

1. Pythonのクラスでは、
* 構造体の定義とインターフェースの定義と実装が同時に行われる。
1. HaskellのクラスやRのS3では、
* 構造体とインターフェースは別々に定義される。
* インターフェースの実装は既存の"構造体"に対して行われる。

HaskellやRの"構造体"には、通常の構造体に加えて、関数も含まれる。
構造体とインターフェースが別々に定義される点で、RのS3はHaskellのクラスに
近いように思う。

おしまい
0483デフォルトの名無しさん
垢版 |
2023/03/26(日) 10:03:46.90ID:z5V/p30e
join_by()が便利で感動した
気象データのマージがすごくシンプルになった
0484デフォルトの名無しさん
垢版 |
2023/03/26(日) 22:59:22.57ID:Dr7EPpsh
使用イメージがわかない。どのあたりが便利ですか?
0485デフォルトの名無しさん
垢版 |
2023/03/27(月) 22:57:14.70ID:huaNY8vp
任意の地点・期間における測定値についての風向風速などの気象の影響をみるため近傍アメダスの気象データをマージする際に、便利になったと実感しました

具体的にはマージの際にbetween(時刻,)の条件が追加できるようになったのが大きいです

処理が重いかコードが長いかだった上のマージ処理が、join_by(地点名, between(time, start_time, end_time))で済むようになりました
0486デフォルトの名無しさん
垢版 |
2023/03/30(木) 00:47:43.72ID:7ArmqfaI
[非等価ジョイン](https://en.wikipedia.org/wiki/Relational_algebra)は
最近になって関数`dplyr::xxx_join`に導入されたらしい。

* Rで非等価結合 (2)
* [dplyr 1.1.0: Joins](https://www.tidyverse.org/blog/2023/01/dplyr-1-1-0-joins/)

[ラッキー](https://www.youtube.com/watch?v=xBJMr1v5Zuw)。
関数`vctrs::vec_locate_matches`には、以前から限定された形の非等価ジョイン
のオプションがあったので、実用的な形にするのに時間がかかったのかもしれない。

リスト内包表記が使いたいのでPythonで書く。

``` {python a_32372, dependson = ""}
#| cache: false
#
def slow_matches (pred, zipper): #{
def go (a, b): #{
a = pandas.DataFrame ({"" : a}).groupby ("").groups
b = pandas.DataFrame ({"" : b}).groupby ("").groups
key = ((j, k) for j in a.keys () for k in b.keys () if pred (j, k))
val = (zipper (a [j], b [k]) for (j, k) in key)
val = zip (* itertools.chain (* val))
return (numpy.fromiter (val, dtype = numpy.int32) for val in val)
#}
return go
#}
0487デフォルトの名無しさん
垢版 |
2023/03/30(木) 00:49:00.50ID:7ArmqfaI
def none (): #{
a = numpy.random.choice (8, 2 * 8, replace = True)
b = a + 4
def go (pred, zipper): #{
(j, k) = slow_matches (pred, zipper) (a, b)
out = pandas.DataFrame ({"a" : a [j], "b" : b [k]})
print (out)
#}
go (lambda a, b: a == b, itertools.product)
go (lambda a, b: a == b, lambda a, b: itertools.islice (zip (a, b), 1))
go (lambda a, b: abs (a - b) <= 1, itertools.product)
go (lambda a, b: abs (a - b) <= 1, lambda a, b: itertools.islice (zip (a, b), 1))
#}
none ();
```

`dplyr::xxx_join`の数々のオプションは理解できていないが、`NA`絡み以外は、
コールバック`pred`と`zipper`でかなりカバーしてるんじゃないかと思う。
ジョインの操作自体は明朗会計だが、実行時性能がボッタクリ価格に転嫁される
というプログラミング社会が抱える構造的な問題が反映されている。

おしまい
0488デフォルトの名無しさん
垢版 |
2023/03/30(木) 18:24:14.72ID:Yqa5DxWU
一応Rスレだしコード一式を載せるならRにしてほしいな
0489デフォルトの名無しさん
垢版 |
2023/03/31(金) 01:01:10.23ID:3FvfgxM7
正直、書き方を思い出すためだけに、話題にかこつけて、わざと異なる
プログラミング言語で書くこともある。しかし、今回は純粋に、処理の道筋を
単刀直入な形で表せるプログラミング言語を選択した。

[線形回帰](https://en.wikipedia.org/wiki/Linear_regression)を例にとる。
Rで線形回帰はとても書きやすい。しかし、線型回帰をRのイディオムとして
覚えるよりも、線形代数として覚えた方が長い目で見た時に利益になると思う。
同じように、等価ジョインは
[プルバック](https://en.wikipedia.org/wiki/Pullback_(category_theory)#Sets)
に対応する。等価ジョインを、Rのイディオムとして覚えるよりも、
単純な`for`ループの形で覚えた方が長い目で見た時に利益になると思う。
リスト内包記法は`for`ループを簡潔に書くための記法になっている。
0490デフォルトの名無しさん
垢版 |
2023/04/15(土) 20:49:08.02ID:Mf5VNEJ8
プルバックの話の続きをアップした。

* [JSFiddle](https://jsfiddle.net/ytkhdpcq/show)

プルバックのカリー化の話になっている。プルバックの話はこれでお終い。
洗練された話は次の記事にある。

* [locally cartesian closed category in nLab](https://ncatlab.org/nlab/show/locally+cartesian+closed+category)

表計算の立場で見ると、"何が問題なのかわからない"問題かもしれない。
ある規則を満たす表でサマリーするとプルバックのカリー化になる。
0491デフォルトの名無しさん
垢版 |
2023/04/24(月) 19:43:15.59ID:Jj998bTN
4.3.0入れてみた
パイプがまたひとつ便利になっていい感じ
Windowsでパスが長くても通るようになったのも嬉しい
0492デフォルトの名無しさん
垢版 |
2023/04/26(水) 12:00:07.89ID:GTOaZ7cP
どなたか教えてくだされ
対照実験の医療統計をしたいと思って
傾向スコアマッチングにしようと思ってます

肺がん手術を実施した人たち200症例のうち10人だけ
手術後に合併症を起こしていました

この場合

「合併症を起こしたグループ」・・・10人
「合併症を起こさなかったグループ」・・・190人になり

患者の背景で傾向スコアマッチングをキャリパー幅0.2でペア分けすると

各群8人ずつの比較になってしまいます。

これで優位差を出す統計するには数が少なすぎるのであまりにも乱暴な統計になりますか?
それとも元々のサンプルが200人から選りすぐりのマッチングさせた8人ずつを選んでいるので8人ずつと少なくても問題ないですか?
0493デフォルトの名無しさん
垢版 |
2023/04/26(水) 18:48:06.52ID:ZF8W3LJH
共変量のバイアスがより少ないサンプルが得られますが、サイズが8人の二群比較なのは変わらないんじゃないかと思います
0494デフォルトの名無しさん
垢版 |
2023/04/26(水) 23:58:34.61ID:GTOaZ7cP
>>493
つまりサイズが8人ずつの比較では
優位差を言うには弱いと思いますか?
0495デフォルトの名無しさん
垢版 |
2023/04/27(木) 08:26:17.11ID:vIGDv5il
>>494
検定はサンプルサイズ込みの判定なので8人であっても二群に有意な差があったと言って差し支えありません
有意水準が甘ければ弱いとは感じますが

一方で、検定は標本のバイアスが除去できていることを保証してくれません
0496デフォルトの名無しさん
垢版 |
2023/05/13(土) 14:17:33.54ID:LcdFqRfa
スレッドの質をガクッと下げるが、Rの非標準評価で遊んでみた。

* [JSFiddle](https://jsfiddle.net/fo1qjt87/show)
0497デフォルトの名無しさん
垢版 |
2023/05/16(火) 14:12:25.04ID:T6FZDpAX
4.3.0のWindows版はdir()にバグあるね
リストがまともに取得できない
4.2.3に戻した
0498デフォルトの名無しさん
垢版 |
2023/05/19(金) 19:12:10.55ID:LBQCZv0F
EZR使ってる人いる?
0499デフォルトの名無しさん
垢版 |
2023/05/19(金) 23:40:20.00ID:AtidLON9
EZRまだ更新続いてて驚いた
すごいな
0501デフォルトの名無しさん
垢版 |
2023/05/21(日) 20:10:58.14ID:F9CBOLLZ
750に達するのにもう10年を要するだろう
0502デフォルトの名無しさん
垢版 |
2023/05/22(月) 00:40:13.35ID:Cnh2SEE8
tibbleを利用してデータ探索しているんだけど、2つの変数で条件つけて散布図つくるにはどんな手順踏んだらいいのか…
0503デフォルトの名無しさん
垢版 |
2023/05/22(月) 06:06:37.46ID:wj8Gj0ut
変数1をプロットの色にして変数2をサイズにするとかじゃだめなの?
0504デフォルトの名無しさん
垢版 |
2023/05/22(月) 09:44:06.92ID:/JtWuqEq
それも一つの方法ですね。ありがとう
ただ、目的以外の条件をプロットしたくないのです。
tibbleの構成としては、観測が4時点、変数がたとえば6個(うち1つは個体識別番号で、変数としてはA-Eの5種類あるとしましょう)のような感じで、
散布図のx軸に「観測時点1における全個体の変数A」
y軸に「観測時点4における全個体の変数E」
をプロットしたいのです。
個体識別番号をキューにして、異なる時点の異なる種類の変数を散布図にするとでもいいましょうか…
0505デフォルトの名無しさん
垢版 |
2023/05/22(月) 11:53:24.61ID:wj8Gj0ut
その要件だと以下のような感じでいけると思います

library(tidyverse)

df <- tibble(
time = rep(1:4, each = 5),
id = rep(1:5, 4),
a = rnorm(20),
b = rnorm(20),
c = rnorm(20),
d = rnorm(20),
e = rnorm(20)
)

df |>
pivot_wider(id_cols = id, names_from = time, values_from = c(a, e)) |>
ggplot(aes(a_1, e_4)) + geom_point()
0508デフォルトの名無しさん
垢版 |
2023/05/25(木) 05:49:23.72ID:NLUeSyH/
>>507
要件の理解が違っていなければ散布図作成まで行きますよ
time1でのaの値とtime4でのeの値をid毎にプロットしています
0509デフォルトの名無しさん
垢版 |
2023/05/25(木) 07:49:04.33ID:DfoFl+x4
>>508
失礼しました
こちらのビューワの問題で、ブラウザでみたらスクリプトの最後まで表示されました💦
0511デフォルトの名無しさん
垢版 |
2023/05/27(土) 00:00:44.30ID:qqVzW/zi
どなたか統計素人の私に教えてください

医療でA群100名とB群100名をいろんな観点から
比較するとします

背景を揃えるために傾向スコア分析で
キャリパー0.2で取って30ペア(合計60人)を抽出しました

例えば
①アミラーゼの値とかを統計にかけたいときは、その60人のアミラーゼのデータをまずは正規分布かどうかをShapiro-wilk検定で測って、0.05を上回っていたら「正規分布」と見なして、今度はこれら60人のアミラーゼのデータが等分散かどうかを確認するためにf検定を行なって等分散だったらt検定(Student's t-test)、違ったらWelch's t-testで優位差があるかどうかを調べる。

もしShapiro-wilk検定が0.05未満で非正規分布だったときはMann-whitney's U検定で優位差があるかどうかを調べる。

↑Q1. この認識であってますか?

Q2. この正規分布を計るのはペアを作った後のデータ(n=60)で、正規分布かどうか?等分散かどうか?を見ますか?
それともマッチング前のデータ(n=200)で正規分布かどうか?等分散かどうか?を確認するべきですか?

Q3. アミラーゼじゃなくて他の連続変数の項目(BMIだったり、血圧だったり、白血球数だったり)の優位差を調べる場合も
全て上の流れで一つ一つの項目ごとで正規分布か?等分散か?など確認していって適宜、該当する算出法を項目ごとに採用して優位差を測る必要がありますか?


もし良ければ教えていただけるとありがたいです
0512デフォルトの名無しさん
垢版 |
2023/05/27(土) 19:37:35.09ID:H+hysMph
素人だと思ううちは傾向スコアには手を出さないほうがいいような気がする
0513デフォルトの名無しさん
垢版 |
2023/05/27(土) 22:19:54.02ID:Z7qvu7kx
>>512
上記の場合はどういうかんじでやるのが
最適解になるのかだけでも教えてもらえないでしょうか?
0515デフォルトの名無しさん
垢版 |
2023/06/13(火) 17:38:19.62ID:J5T/voP2
ggraggedパッケージがなかなか便利
facet_grid()を詰めて並べられる
0516デフォルトの名無しさん
垢版 |
2023/06/18(日) 13:00:54.90ID:13gXw1hf
R4.3.1にした
dir()関連が直ってるようでひと安心
標準パイプの新機能もようやく使える
0518デフォルトの名無しさん
垢版 |
2023/06/19(月) 07:17:50.83ID:lFY/Y6gc
ggplot2のカラーパレットのデフォルトが変わったりしました?
棒グラフの色の割り当てが変わった気がする…
0519デフォルトの名無しさん
垢版 |
2023/06/19(月) 19:42:23.18ID:CYQnxNgF
>>518
変わってないはず
ただggplot2のデフォルトはグループ数に応じて関数で色を割り当ててるのでグループ数が異なると違うパレットのように感じるとは思います
0520デフォルトの名無しさん
垢版 |
2023/06/19(月) 20:01:30.62ID:b0yPHKbc
株価データを取得したいがためにRを弄り始めたけど中々難しいね
ググってコピペしたコードを一つ一つパッケージと関数の挙動を調べているけど
やりたいこと全てができるようになるまでは遠そうだ
0521デフォルトの名無しさん
垢版 |
2023/06/19(月) 22:06:40.20ID:J5tIl656
>>520
データをどこから持ってくるかによって随分難易度は違う。
ファイルとしてダウンロードできるところもあるし、
スクレイピングが必要なところもある。場合によってはせれにうむとか。
0522デフォルトの名無しさん
垢版 |
2023/06/22(木) 23:31:13.20ID:eZc4H/Dz
企業が求めるエンジニア言語ランキング 2位「R」
https://www.itmedia.co.jp/news/spv/2306/20/news183.html

3位以下を大きく引き離しててすごいけど…
Rユーザの少なさを反映しただけな気もする
0523デフォルトの名無しさん
垢版 |
2023/06/25(日) 11:51:31.98ID:JqE+uKYL
Rの求人なんてみたことない…
0524デフォルトの名無しさん
垢版 |
2023/06/25(日) 15:23:19.17ID:XZytU2Vy
>求人数のトップ3は1位「C言語」(39万2559件)、2位「R言語」(30万3759件)、3位「Go」(8万3922件)だった。
>このランキングは、SalesNow DBに1月1日から5月31日までに載った114万5294件の有効求人から算出した。

5ヶ月で30万件もあったらしい
Pythonが4万件弱なところを見るとデータ解析用言語を列記したわけじゃなく純粋にRの需要があったみたいだ
不思議
0525デフォルトの名無しさん
垢版 |
2023/06/26(月) 18:52:56.83ID:wRy8Kzvb
結局企業で欲しいのは統計処理だから、統計処理ならRだろうっていう短絡的な
求人が多かったってことじゃない?
0526デフォルトの名無しさん
垢版 |
2023/06/28(水) 18:59:42.22ID:z2KrS2jG
いくつか求人サイト見てみたけどRのみなんて求人はほぼ皆無でほとんどがPythonとの併記だった

これ集計ミスかもね
同じ会社の別の期間のランキング見るとRは10位以内に入ってないし
0528デフォルトの名無しさん
垢版 |
2023/06/29(木) 08:36:21.11ID:szIurvDh
業∞!!!!
字∞!!!!!
苗∞!!!!!!
米∞!!!!!!!
畑∞!!!!!!!!
灰∞!!!!!!!!!
糞∞!!!!!!!!!!
机∞!!!!!!!!!!!
0529デフォルトの名無しさん
垢版 |
2023/07/23(日) 03:41:51.31ID:SQtd3M8i
結構何年か前にRは結構古臭いし、言語仕様もわかりづらいし衰退するのでは、と書いているのを
読んだことがあるけど、逆に今だと他の商用統計パッケージが廃れる勢いなのにRって立場が盤石な
気がする
なんで?
0530デフォルトの名無しさん
垢版 |
2023/07/24(月) 10:46:27.45ID:uQbqJHBb
AIブームでPythonに全部もってかれると思ったけどそうでもなかったね
先発優位で統計屋や大学教授が昔からRユーザーってのもあるのかも?

ユーザー視点からだとtidyverseの存在が大きいと思う
505のように地味に手間がかかりそうな処理が関数ひとつでひょいと処理できるとかすごい
0533デフォルトの名無しさん
垢版 |
2023/07/25(火) 22:12:29.13ID:KSU0u1F8
とくに大学の研究室とかは、同じような機能のプログラムを別言語に
コンバートする作業は雑用でしかないので誰も積極的にはやらない。
RでできるのならこのままRでいいじゃん、もしくはフォートランでもw
みたいな感じ
やったところでなにか新しい知見が得られるわけもなし。
0534デフォルトの名無しさん
垢版 |
2023/07/26(水) 14:36:34.35ID:/vrstjVu
昔の医学分野の統計処理はSASがデフォだったけど
COVID-19で疫学の人(西浦先生とか)がRガンガン使ってるの見て疫学以外でもRが広がってる
学会行くとggplotで書いたグラフいっぱい見る
0535デフォルトの名無しさん
垢版 |
2023/07/30(日) 15:01:13.36ID:/zgOfttX
ggplot2のデフォルトテーマは微妙なので変えているけどいつも悩む
ggthemesをもとにそこから装飾することが多い
0537デフォルトの名無しさん
垢版 |
2023/08/08(火) 23:42:45.27ID:D9D8OCal
Rしばらく使ってないから忘れそう
0538デフォルトの名無しさん
垢版 |
2023/08/23(水) 14:24:09.90ID:LaIh/7Co
ついにExcelでPython使えるようになるらしい
マイクロソフトはRのベンダー買収してMRANとかやってたのに時代の流れかな
0539デフォルトの名無しさん
垢版 |
2023/08/24(木) 07:11:35.29ID:UfAeCzV0
Pythonでexcel弄るのは
15年以上前から出来てるのを今更
excel上のpythonで実行する方が遅い可能性まである
0540デフォルトの名無しさん
垢版 |
2023/08/25(金) 13:03:41.78ID:8Z9WZ/AE
PythonからExcelをいじることとExcelでPythonが動くことは全く違う
0541デフォルトの名無しさん
垢版 |
2023/08/25(金) 13:58:38.54ID:5+gJach+
くりゃうどω
0542デフォルトの名無しさん
垢版 |
2023/08/25(金) 14:03:48.50ID:HPTKrBcu
pythonは何故かPCでJupyter notebookが不具合で使えなくてな
導入時点でコケるとその言語をやる気失くす…Rはその点、導入が簡単で良かった
0543デフォルトの名無しさん
垢版 |
2023/08/27(日) 01:44:38.85ID:VsjIkj4j
Excelも最近はTidydata志向で、パワークエリやパワーピボットで再現性のある加工や分析が
できるようになってきているけど、使い始めはなかなかいいかな、と思ったがちょっと凝ると
やっぱり複雑化してメンテできないVBAみたいになっちゃうなw

ま、RやPythonだからメンテ性がいいというわけでもない気はするけどw
0544デフォルトの名無しさん
垢版 |
2023/08/27(日) 20:22:33.62ID:RTNKd3te
Excelマクロ禁止してきた企業はPython機能も禁止しそう
Rを社員が使うケースなんてのはもうレア度SSRなんだろうね
0545デフォルトの名無しさん
垢版 |
2023/08/28(月) 13:50:39.79ID:62AYCckx
Rで学ぶなんとか分析とかいう本いっぱい出ているし、結構個人でやる気のあるやつは覚えるんじゃね?
R人口増えている印象。
0546デフォルトの名無しさん
垢版 |
2023/08/28(月) 13:57:24.90ID:3YABDYXJ
昨日の統数研のワークショップ見て、大学や企業によってはライブラリのインストールに制限あったりでデフォルトで解析できるのがRが多言語に置き換わらない理由の一つなのかもなと思った
今後も「選択と集中」続けるどころか懸賞金型推進するようだから商用に金払うのも辛くなるとこも出てきそうね
0547デフォルトの名無しさん
垢版 |
2023/08/29(火) 18:08:36.20ID:vrxlGHM5
数が増えてることと数が少ないこととは違う
これ混同する人は結構多い
0549デフォルトの名無しさん
垢版 |
2023/09/01(金) 21:33:15.97ID:T0/12uyc
自分は今の部署にいる間だけは統計解析するけど異動したらもう解析なんてしないからRのモチベは低いな
人事の巡り合わせでいつかまた今の部署に戻るかもしれないけど
0551デフォルトの名無しさん
垢版 |
2023/09/02(土) 14:49:02.94ID:DQO4DB1k
過疎スレでその煽りは馬鹿じゃねえの
0553デフォルトの名無しさん
垢版 |
2023/09/02(土) 15:27:52.78ID:DQO4DB1k
ageを最近知ったみたいに強調してる馬鹿ww
0555デフォルトの名無しさん
垢版 |
2023/11/26(日) 19:19:27.89ID:fOcIWwuE
おーまんちょー!
0556デフォルトの名無しさん
垢版 |
2023/12/02(土) 19:24:46.52ID:UAUVJeJE
前回のおーまんちょーでは一部のコードで途中から行番号が表示されるようになっていた。
多分、JSFiddleのエディターで`tidy`というボタンを押してしまったからだと思う。
実は、`prettydoc::html_pretty`で行番号が表示されないのを直したいと思っていた。
しかし、どこから手を付けたら良いかわからなかった。それが、ハプニングのおかげで
手の入れ場所がわかった。多分、HTMLとしては不整合な状況になっているが、
意図した通りに表示されるようになった。
[ありがとう、おーまんちょー](https://jsfiddle.net/105nohbq/show)
0558デフォルトの名無しさん
垢版 |
2023/12/17(日) 12:11:13.68ID:j39jK9SN
一般的な意味では、そんなことないと思うよ。
状況によってはgroup_byとmapを組み合わせると上手く行くことがあると思う。
ぐるぐる図のくだりでグダグダなところがあったので、
[修正した](https://jsfiddle.net/6z7u3d09/show)。
アップした後にタイポを見つけたが、覆水盆に返らず。
0559デフォルトの名無しさん
垢版 |
2023/12/17(日) 23:02:11.11ID:/RmbQ2uq
多変数の時系列データをクラスタリングするpackageをご存知であれば教えていただけますか…?
0560デフォルトの名無しさん
垢版 |
2023/12/18(月) 00:40:20.74ID:+7hNKB64
知らない。
人がいれば、意味のない返事はしない方が良いかもしれないが、過疎だからね。
0561デフォルトの名無しさん
垢版 |
2023/12/18(月) 23:51:29.23ID:t5S7JJTy
あなたは地球上で何日過ごしてますか?
という問いに答えるRのスクリプト

干支と誕生日(月日)から今日が生まれて何日めか計算

eto=("ひつじ")
tag="10-17"
Eto=c("子(ね=ねずみ)","丑(うし)","寅(とら)","卯(う=うさぎ)","辰(たつ=龍(りゅう))","巳(み=へび)","午(うま)","未(ひつじ)","申(さる)","酉(とり=にわとり)","戌(いぬ)","亥(い=いのしし)")
# Eto
i=grep(eto,Eto)
this_year=as.numeric(strsplit(as.character(Sys.Date()),'-')[[1]][1])
j=this_year%%12 - 3
age=12*(0:9) + j-i
age=age[18<=age][1:5]
age
AD=paste0(this_year-age,"-",tag)
days=\(x) as.numeric(Sys.Date() - as.Date(x))
rbind(age,days=sapply(AD,days))

あってますか?
0563デフォルトの名無しさん
垢版 |
2023/12/19(火) 00:58:14.13ID:jHCQnODd
マジで聞いているんなら、テストツールの使い方を覚えた方が建設的だと思う。
個人的には、Haskellからの流れで
[quickcheck](https://github.com/RevolutionAnalytics/quickcheck)
しか経験したことがないが、他にもあると思う。

コードが合っているかどうかわからないが、パット見問題なさそうに見える。
問題があったとしても、デバッグで十分対応できるように見える。
[リーナスの法則](https://en.wikipedia.org/wiki/Linus%27s_law):
あたなが十分な暇人ならばバグはいずれ塞がれる。
0565デフォルトの名無しさん
垢版 |
2023/12/20(水) 23:21:30.67ID:H48HUSxu
ChatGPTはなんていい奴なんだろう。

クソ野郎: I'd like to test the following code:

``` r
拝借
```

* The code is written in the programming language R.
* "子", "丑", ..., are the Chinese / Japanese zodiac called Eto in Japanese.

This code have to calculate the age for given birth date in Eto, e.g.
`eto = "ひつじ", tag = date = "10-17"`. Are there any advice to test this code?

ChatGPT: Certainly! To test the provided R code, you can follow these steps:

1. Understand the Code:
* Make sure you understand the logic of the code and how it calculates age based on the Eto and birthdate information.
1. Run the Code:
* Copy and paste the code into an R script or R console.
* Ensure that there are no syntax errors or issues when running the code.
1. Test Cases:
* Define several test cases with different combinations of Eto, birthdate (tag), and current date.
* For example, you can use different values for eto and tag, and verify the calculated age against your expectations.
1. Expected Results:
* Manually calculate the expected age for each test case based on the provided Eto information and current date.
* Compare the manually calculated age with the age calculated by the R code.
1. Edge Cases:
* Test the code with edge cases, such as birthdates close to the boundary of age ranges, to ensure the code handles them correctly.
0566デフォルトの名無しさん
垢版 |
2023/12/21(木) 22:26:55.69ID:Jt1+wTI1
出禁になった。書けるかな?
てなわけで、ちゃっとじーぴーてーの残りの部分は割愛する。

意地悪クソ野郎と親切じーぴーてーにも共通することろがあって、
最後の締めはやっぱりリーナスの法則になる。言い方が全然違うけど。

親切じーぴーてーが例に挙げたテストコードがテストの基本形になると思う。
くいっくちぇっくのようなテストツールでは、テストケースをランダムに発生させるが、
そうしたテストツールが使えない場合も多々ある。テストツールが使えない場合は、
親切じーぴーてーが示したようなベタな方法で行くしかない。
0567デフォルトの名無しさん
垢版 |
2023/12/21(木) 22:41:24.08ID:6SaY/e5W
>>566
書き込めるかどうか判らぬままに
黙々とその低能感溢れる文章を書いている姿を想像すると泣けてくる

書き込めてよかったな
0568デフォルトの名無しさん
垢版 |
2023/12/22(金) 00:02:15.06ID://WOG+3q
親切じーぴーてーとの会話を見返すと、関数を細分化して、(ナウ、干支、月日)
という三つ組を引数とする関数を作るのもありかな?という気がしてきた。
このように関数を細分化すると、テストケースが作りやすくなる。
0571デフォルトの名無しさん
垢版 |
2024/01/05(金) 00:08:11.56ID:Cbq0Hg0X
かけるかな

統計の人でも機械学習の人でもないので、返事を書くのは心苦しいものがあるが、
過疎なのでしょうがない。統計処理と機械学習の区別がつかないぐらいの素人だよ。
ありきたりだけど:

* [朱鷺の杜Wiki](http://ibisforest.org/index.php?FrontPage)

グーグルとアヒルで検索してみたけど、この検索については英語の方が情報が取りやすいと思った。
英語でも日本語でも本屋の広告が多くなるが、英語の方が俺が推薦図書はこれだ!
みたいなのが多いような気がした。検索で見つけた本だけど非売品と商品の両方がある。

* [Modern Dimension Reduction](https://arxiv.org/abs/2103.06885)
* [Modern Dimension Reduction](https://www.cambridge.org/core/elements/abs/modern-dimension-reduction/D1506D1D7D51CC4EF375E4633D54F377)

このようなケースでは立ち読みしてから買うこともできる。時々、非売品と商品の
両方が用意されていることがあるので、注意した方が良いかもしれない。
殊、次元削減で言えば、線形代数みないなもので、ありとあらゆる場所で使われるので、
俺の次元削減にジャストフィットするものを探すのは難しいかもしれない。

ちなみに、専門的には、学校の教室で研究会を開くのが統計で、リゾート地で
国際会議を開くのが機械学習らしい。
レスを投稿する


ニューススポーツなんでも実況