検索プログラマのメモ帳

壁にぶつかったら検索で調べるプログラマのちょっと遅れたメモ帳。たまに自分で挑戦する。

Skip to: Content | Sidebar | Footer

RからMYSQLに接続しデータ取得

29 7月, 2016 (10:55) | R解析 | By: admin

[:ja]drv<-dbDriver(“MySQL”)
conn<-dbConnect(drv, host=”localhost”, dbname=”race”, user=”root”, password=”pass”)
dbGetQuery(conn, ‘SET NAMES utf8’)
rs<-dbSendQuery(conn, ‘select order_of_finish from feature limit 250’)
allData<-fetch(rs, n = -1)
#文字化け対策
allData$weather[:]

Rでロジスティック回帰分析

28 7月, 2016 (14:08) | R解析 | By: admin

[:ja]library(MASS)
#「低体重出生とそのリスク因子の関連」を調べたデータ
head(birthwt)
str(birthwt)
#列の選択
sample_logi<-birthwt[,c(1,2,3,5,6,7,8)]
#ポンドをキログラムに変換
sample_logi$lwt<-sample_logi$lwt * 0.454
#データフレームの項目を直接使えるようにする。{sample_logi$lwt}→{lwt}
attach(sample_logi)

train.glm <- glm(order_of_finish~., family=binomial,data= train)
summary(output.glm)

対数odds{log(2.5kg未満の新生児が生まれる確率/生まれない確率)=
1.38186+(-0.04223)*年齢+(-0.03154)*体重+0.55076*喫煙有無+0.59316*早産経験有無+1.86364*高血圧有無+0.73675*子宮神経過敏有無}

#対数oddsから確率へ変換 自然対数表示exp
確率=exp(対数odds)/(1+exp(対数odds))

# 高血圧以外の条件が同じ場合に、要素の有無が、確率を~倍引き上げる
exp(output.glm$coefficients)[:]

Rでデータの処理(カテゴリカルデータと標準化)

25 7月, 2016 (17:01) | R解析 | By: admin

[:ja]Rでデータの処理

・カテゴリカルデータのダミー変数化
library(caret)
library(ggplot2)

#data1の全ての(~.)列をダミー変数化の対象と指定
tmp<-dummyVars(~., data=sample1)

#指定列をダミー変数化し、データフレームに成型する。
sample1.dummy<-as.data.frame(predict(tmp, sample1))

・単位が異なる変数を基準化/標準化
#2~9列までをscaleで標準化する。
scale.dummy<-scale(data1.dummy[,2:9])

#確認
summary(scale.dummy)

#標準偏差が1になっているか確認
library(psych)
describe(scale.dummy)[:]