2014年06月18日

「Rによるテキストマイニング入門」を見つつ、2年ぶりか3年ぶりか、Mecabをインストールした。

おそらく、かなり前だなー、Mecab入れて
使ったのって。

■環境
OS:Fedora20
R version 3.1.0 (2014-04-10) -- "Spring Dance"

■参照:
「Rによるテキストマイニング入門」P47付近


$ which mecab
/usr/local/bin/mecab

$ cat test.txt
この近くに郵便局ありますか

$ mecab test.txt
この 連体詞,*,*,*,*,*,この,コノ,コノ
近く 名詞,副詞可能,*,*,*,*,近く,チカク,チカク
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
郵便 名詞,一般,*,*,*,*,郵便,ユウビン,ユービン
局 名詞,接尾,一般,*,*,*,局,キョク,キョク
あり 動詞,自立,*,*,五段・ラ行,連用形,ある,アリ,アリ
ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
か 助詞,副助詞/並立助詞/終助詞,*,*,*,*,か,カ,カ
EOS


EOS = End of sentence です。

■MecabとMecab-ipadicダウンロード後のインストール

cd ダウンロード
tar xvzf mecab-0.996.tar.gz
cd mecab-0.996/
ls -la
./configure --with-charset=utf-8
make
chmod 700 install-sh
sudo make install
cd ..
pwd
tar xvzf mecab-ipadic-2.7.0-20070801.tar.gz
cd mecab-ipadic-2.7.0-20070801/
./configure --with-charset=utf-8
make
chmod 700 install-sh
sudo make install


◎Rによるテキストマイニング入門:3,024円
Rによるテキストマイニング入門 -
Rによるテキストマイニング入門 -


◎Rによるバイオインフォマティクスデータ解析 第2版 -Bioconductorを用いたゲノムスケールのデータマイニング:4,968円
Rによるバイオインフォマティクスデータ解析 第2版 −Bioconductorを用いたゲノムスケールのデータマイニング− -
Rによるバイオインフォマティクスデータ解析 第2版 −Bioconductorを用いたゲノムスケールのデータマイニング− -
posted by アンドレアス at 11:45| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

2014年06月05日

バイオインフォマティクスできるように、VirtualBox + Fedora20 + R

R用のVMも1つ作ることにします。

これも、Chefでプロビジョニングできるようにする。

「Rによるバイオインフォマティクス第2版」の12章に、
サーバ構築があるんですが、RServeパッケージを使うものです。
やってみよう!

KNIME
http://www.knime.org/

KNIMEからRServe経由で、
Rを利用するとあります。
(「Rによるバイオインフォマティクス第2版」P205参照)


◎オープンソースで学ぶバイオインフォマティクス:円
オープンソースで学ぶバイオインフォマティクス [単行本] / オープンバイオ研究会 (編集); 東京電機大学出版局 (刊)



◎バイオインフォマティクス ゲノム配列から機能解析へ 第2版:11,550円
バイオインフォマティクス ゲノム配列から機能解析へ 第2版 [大型本] / 岡崎 康司, 坊農 秀雅 (著); マウント デービッド W. (監訳); メディカル・サイエンス・インターナショナル (刊)


◎バイオインフォマティクスのためのアルゴリズム入門:5,040円
バイオインフォマティクスのためのアルゴリズム入門 [単行本] / Pavel A.Pevzner, Neil C.Jones (著); 渋谷 哲朗 (翻訳); 共立出版 (刊)



最後になるが、面白かった、読んでて(^^)
http://bioruby.open-bio.org/archive/doc/Japanese/BR060224-ipa.pdf#search=%27ChemRuby%27
posted by アンドレアス at 20:45| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

2013年08月30日

朝からRを使う。Rgraphvizパッケージをインストールし、循環グラフをcircoで作成してみました。

「Rによるバイオインフォマティクスデータ解析 第2版 -Bioconductorを用いたゲノムスケールのデータマイニング」のP225 グラフとネットワーク

Rgraphvizパッケージをインストールし、
循環グラフをcircoで作成してみました。

circoR20130829.png

■参考
source("http://www.bioconductor.org/biocLite.R")
biocLite("graph")
library(graph)
set.seed(123)
以降、興味のある人は、
「Rによるバイオインフォマティクスデータ解析 第2版 -Bioconductorを用いたゲノムスケールのデータマイニング」を買って、実際にやってみてください。

テキストマイニングばかり、やっているより
面白いと思うけど。



◎Rによるバイオインフォマティクスデータ解析 第2版 -Bioconductorを用いたゲノムスケールのデータマイニング:4,830円
Rによるバイオインフォマティクスデータ解析 第2版 −Bioconductorを用いたゲノムスケールのデータマイニング− [単行本] / 樋口 千洋 (著); 共立出版 (刊)

◎Rによるテキストマイニング入門:2,940円
Rによるテキストマイニング入門 [単行本(ソフトカバー)] / 石田 基広 (著); 森北出版 (刊)



◎Rによるやさしい統計学:2,835円
Rによるやさしい統計学 [単行本] / 山田 剛史, 杉澤 武俊, 村井 潤一郎 (著); オーム社 (刊)


今からEBImageという顕微鏡画像を解析するパッケージをインストールします。
posted by アンドレアス at 07:48| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

2013年08月28日

朝からRをやっている。

どうでも、いい話だが、昨晩オライリーの
「SQLアンチパターン」本を2冊買っていたことに気付いた。

何をやっているんだ…俺は・・・。

まあ、行方不明だった、「Hadoop徹底入門の第2版」が見つかって
良かったのだが。

さて、朝からRをやっています。
完全なリハビリ状態ですが、MySQLのDBからデータを取り組むというのは、
以前やっていなかったので、こりゃ、便利ですね。

ところで、オライリーの「RとRubyによるデータ解析入門」のP49って、
以下のように、しないと、できないのでは?
できなくて、悩んでいる人で、
気付いた人は、同じようにやってみてください。


> source("http://bioconductor.org/biocLite.R")
> biocLite("PROcess")
> install.packages("BIOMOD",repos="http://R-Forge.R-project.org")
> installed.packages()
ここから。
> install.packages(c('DBI','RMySQL'))
> library(RMySQL)
> m <- dbDriver("MySQL")

> con <- dbConnect(m,host='localhost',dbname='ya7',user='root',password='')
> query.result <- dbSendQuery(con,"select * from emp");
> test.table <- fetch(query.result)
> dbDisconnect(con)
[1] TRUE
> test.table
empno ename job mgr hiredate sal comm deptno
1 1234 SMITH CLERK 7902 1988-12-17 800 NA 20
(以下、省略)

■参考:

◎RとRubyによるデータ解析入門:2,940円
RとRubyによるデータ解析入門 [大型本] / Sau Sheong Chang (著); 瀬戸山 雅人, 河内 崇, 高野 雅典, 橋本 吉治 (翻訳); オライリージャパン (刊)


◎Rによるテキストマイニング入門:2,940円
Rによるテキストマイニング入門 [単行本(ソフトカバー)] / 石田 基広 (著); 森北出版 (刊)



◎Rによるやさしい統計学:2,835円
Rによるやさしい統計学 [単行本] / 山田 剛史, 杉澤 武俊, 村井 潤一郎 (著); オーム社 (刊)
posted by アンドレアス at 08:20| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

2013年08月27日

過去ブログを見返していると、3年前の8月28日には、Rをやっていたと気づいた。

うーん、やるな、おれ・・・わーい(嬉しい顔)

ブログを見返していたら、

2010-08-28 10:14:52
Rで、すぐに始める統計、テキストマイニング--R-PROJECTよりRをダウンロードせよ!(追記:操作開始)

が見つかった。

2011年09月17日には、ソースでFedoraにインストールしようとしているブログも
見つかったが、当時は、yumできなかったのかな?

さっき、Fedora19に yum で Rをインストールしたんだけど、
ラクですね、最近。

Rをやりたいのであって、Rのインストールをしたわけではないから、
yumで一発インストールできれば、時間も節約できるってわけで、
便利になったなー。

◎Rによるテキストマイニング入門:2,940円
Rによるテキストマイニング入門 [単行本(ソフトカバー)] / 石田 基広 (著); 森北出版 (刊)



◎Rによるやさしい統計学:2,835円
Rによるやさしい統計学 [単行本] / 山田 剛史, 杉澤 武俊, 村井 潤一郎 (著); オーム社 (刊)
posted by アンドレアス at 23:44| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

2012年03月22日

朝から、Rでテキストマイニング(3)

グラフ作成中です。

デンドログラムとか・・・。

折れ線グラフとか。



◎Rによるテキストマイニング入門:2,940円
Rによるテキストマイニング入門 [単行本(ソフトカバー)] / 石田 基広 (著); 森北出版 (刊)



◎Rによるやさしい統計学:2,835円
Rによるやさしい統計学 [単行本] / 山田 剛史, 杉澤 武俊, 村井 潤一郎 (著); オーム社 (刊)


◎統計解析環境Rによるバイオインフォマティクスデータ解析−Bioconductorを用いたゲノムスケールのデータマイニング−:円
統計解析環境Rによるバイオインフォマティクスデータ解析−Bioconductorを用いたゲノムスケールのデータマイニング−〔CD-ROM付〕 [単行本] / 樋口 千洋, 石井 一夫 (著); 共立出版 (刊)
posted by アンドレアス at 07:01| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

Rによるテキストマイニング入門、再読中です。(2)

寝る前に、マイニングだ!(グーーーーッ!眠い・・)





◎Rによるテキストマイニング入門:2,940円
Rによるテキストマイニング入門 [単行本(ソフトカバー)] / 石田 基広 (著); 森北出版 (刊)



◎Rによるやさしい統計学:2,835円
Rによるやさしい統計学 [単行本] / 山田 剛史, 杉澤 武俊, 村井 潤一郎 (著); オーム社 (刊)


◎統計解析環境Rによるバイオインフォマティクスデータ解析−Bioconductorを用いたゲノムスケールのデータマイニング−:円
統計解析環境Rによるバイオインフォマティクスデータ解析−Bioconductorを用いたゲノムスケールのデータマイニング−〔CD-ROM付〕 [単行本] / 樋口 千洋, 石井 一夫 (著); 共立出版 (刊)
posted by アンドレアス at 00:16| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

2012年03月21日

Rの入ったWindows XPに、RMecabをインストール中です。

●OS:Windows XP

RMecabをインストール中です。


そろそろ、寝なければ・・・。

RMecabで形態素解析させると
EOSと表示されるのが、目に留まると思いますが、
EOSは、End of sentenceのことです。



◎Rによるテキストマイニング入門:2,940円
Rによるテキストマイニング入門 [単行本(ソフトカバー)] / 石田 基広 (著); 森北出版 (刊)



◎Rによるやさしい統計学:2,835円
Rによるやさしい統計学 [単行本] / 山田 剛史, 杉澤 武俊, 村井 潤一郎 (著); オーム社 (刊)


◎統計解析環境Rによるバイオインフォマティクスデータ解析−Bioconductorを用いたゲノムスケールのデータマイニング−:円
統計解析環境Rによるバイオインフォマティクスデータ解析−Bioconductorを用いたゲノムスケールのデータマイニング−〔CD-ROM付〕 [単行本] / 樋口 千洋, 石井 一夫 (著); 共立出版 (刊)
posted by アンドレアス at 00:40| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

2012年03月20日

Rによるテキストマイニング入門、再読中です。

付録A 統計の基礎を再読中です。

あー、眠い・・・。

■データの種類

名義尺度

順序尺度

感覚尺度

比尺度

離散値

連続値

データを要約する

レンジ

統計量

分散

自由度

不偏分散

標準偏差

分位数(quantile)・・・データの幅をあらわす概念

正規分布

ヒストグラム

経験分布

理論分布

t検定

帰無仮説

カイ自乗検定

対応分析(correspondence analysis)・・・クロス表を使う。相関が強いもの同士が隣接するように並び替えを行う





◎Rによるテキストマイニング入門:2,940円
Rによるテキストマイニング入門 [単行本(ソフトカバー)] / 石田 基広 (著); 森北出版 (刊)



◎Rによるやさしい統計学:2,835円
Rによるやさしい統計学 [単行本] / 山田 剛史, 杉澤 武俊, 村井 潤一郎 (著); オーム社 (刊)


◎統計解析環境Rによるバイオインフォマティクスデータ解析−Bioconductorを用いたゲノムスケールのデータマイニング−:円
統計解析環境Rによるバイオインフォマティクスデータ解析−Bioconductorを用いたゲノムスケールのデータマイニング−〔CD-ROM付〕 [単行本] / 樋口 千洋, 石井 一夫 (著); 共立出版 (刊)
posted by アンドレアス at 00:52| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

2011年12月11日

じゃあ、サッカー始まるまで、バイオインフォマティクスやるとするかー(^^)

久しぶりですが・・・。やります。


買い物から帰ってきてから。

トヨタカップまでは、まだまだ2時間あるし、結構できそうですね。


◎オープンソースで学ぶバイオインフォマティクス:4,095円
オープンソースで学ぶバイオインフォマティクス [単行本] / オープンバイオ研究会 (編集); 東京電機大学出版局 (刊)



◎Rによるバイオインフォマティクスデータ解析 第2版 −Bioconductorを用いたゲノムスケールのデータマイニング−:4,830円
Rによるバイオインフォマティクスデータ解析 第2版 −Bioconductorを用いたゲノムスケールのデータマイニング− [単行本] / 樋口 千洋 (著); 共立出版 (刊)



◎バイオインフォマティクスのためのアルゴリズム入門:5,040円
バイオインフォマティクスのためのアルゴリズム入門 [単行本] / Pavel A.Pevzner, Neil C.Jones (著); 渋谷 哲朗 (翻訳); 共立出版 (刊)


posted by アンドレアス at 17:08| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

2011年10月26日

R RMeCabによるテキスト解析 寝る前に・・・やることではないな、たぶん(^^)


形態素・・・意味の最小の単位

・人間の言語を「自然言語」と呼ぶ

・自分の使用目的に応じて、辞書機能を充実させる必要あり。



> install.packages("RMeCab_0.94.tgz",destdir = ".",repos=NULL)
* installing *binary* package ‘RMeCab’ ...

* DONE (RMeCab)


>install.packages("RMeCab_0.96_R_i686-pc-linux-gnu.tar.gz",destdir = ".",repos=NULL)


おかしいなー。

つづく・・・・・・・・・・・・・・。

あーーーあ。



今、調べていたら、9/23に形態素解析をやっているなー。

なんで、今できなくなったんやろう?
確認していくか。

まず、mecabは正常に動作していますね。

$ mecab
mecab
こんにちは、私はジャックバウアーです。mecab 名詞,固有名詞,組織,*,*,*,*
EOS

こんにちは 感動詞,*,*,*,*,*,こんにちは,コンニチハ,コンニチワ
、 記号,読点,*,*,*,*,、,、,、
私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
ジャックバウアー 名詞,一般,*,*,*,*,*
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。 記号,句点,*,*,*,*,。,。,。
EOS





◎Rによるテキストマイニング入門:2,940円
Rによるテキストマイニング入門 [単行本(ソフトカバー)] / 石田 基広 (著); 森北出版 (刊)


◎Rによるデータサイエンス - データ解析の基礎から最新手法まで:3,780円
Rによるデータサイエンス - データ解析の基礎から最新手法まで [単行本(ソフトカバー)] / 金 明哲 (著); 森北出版 (刊)
posted by アンドレアス at 02:11| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

R t検定 偶然なのか?否か?

もう、こんな時間ですか・・・・。


寝るか、そろそろ。


● t検定・・・正規分布に従う連続値のデータに適用される


例:A組とB組の数学の成績に差があるかを調べるt検定

A<-c(90,80,80,90,70,60,60,70,80)
B<-c(60,70,80,50,40,50,50,60,70)

> t.test(A,B)

Welch Two Sample t-test

data: A and B
t = 2.9417, df = 15.79, p-value = 0.009678
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
4.643171 28.690163
sample estimates:
mean of x mean of y
75.55556 58.88889

うーーーん、すごいね、Rは。


・帰無仮説

・p-valueが例の「有意水準」の5%ですね。

p-value = 0.009678

なので、0.05未満だから、「有意水準」の5%を
越えているので、偶然では考えられない差があるということになり、
A組がB組より数学の学力が高い、と判断できる。


■補足
> t.test(A,B,paired=TRUE)

2つのデータに「対応がある」(paired)の例は、
省略します。




●サンプル(ペーストしておこう、ここに)わーい(嬉しい顔)
> x<-c(30,30,40,40,40,50,50,50,60,60,60,70,70)
> length(x)
[1] 13
> mean(x)
[1] 50
> sum(x)
[1] 650
> y<-c(20,30,30,40,40,40,50,50,50,50,60,60,60,70,70,80)






■参照:
Rによるテキストマイニング入門:P158〜
仕事に役立つExcel統計解析:P271〜P278





◎Rによるテキストマイニング入門:2,940円
Rによるテキストマイニング入門 [単行本(ソフトカバー)] / 石田 基広 (著); 森北出版 (刊)


◎仕事に役立つExcel統計解析 第3版:円
 最新です。

仕事に役立つExcel統計解析 第3版 (Excel徹底活用シリーズ) [大型本] / 日花 弘子 (著); ソフトバンククリエイティブ (刊)


◎Rによるデータサイエンス - データ解析の基礎から最新手法まで:3,780円
Rによるデータサイエンス - データ解析の基礎から最新手法まで [単行本(ソフトカバー)] / 金 明哲 (著); 森北出版 (刊)
posted by アンドレアス at 01:31| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

RMecabによるテキスト解析。だけど、その前に「データの要約」を。

復習だと思うが、前は、
いつやったんだっけ?

まあ、いいや。

RはWindowsにも入れることにします。

さて、先に、「データの要約」を。


「データの要約」・・・データを代表するような数値を求めること。
例)
・平均値
 mean関数

データの幅を表す統計指標
・分散(普通、普遍分散を指す)
 var関数

*自由度、という考え方

・標準偏差・・・分散の平方根
 sd関数


*range関数で最大値・最小値を求めることが可能。

*diff(range(x)) で、最大値と最小値の差を求めることが可能。
 xは、任意です。

・分位数(quantile)


> summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
30 40 50 50 60 70
> summary(y)
Min. 1st Qu. Median Mean 3rd Qu. Max.
20 40 50 50 60 80

> boxplot(x,y)


あー、そうそう、これが表示可能なようにしないと
いけなかった。(^^)



◎Rによるテキストマイニング入門:2,940円
Rによるテキストマイニング入門 [単行本(ソフトカバー)] / 石田 基広 (著); 森北出版 (刊)


◎Rによるデータサイエンス - データ解析の基礎から最新手法まで:3,780円
Rによるデータサイエンス - データ解析の基礎から最新手法まで [単行本(ソフトカバー)] / 金 明哲 (著); 森北出版 (刊)
posted by アンドレアス at 00:14| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

2011年09月24日

第3版が出ました。「仕事に役立つExcel統計解析 第3版」

統計に関する深い知識が求められるケースが増えているため、
大きな書店でも、統計・解析コーナーなどに、
若い人・女性の人を見かけることが増えました。


会社では、Excelを使って、
統計・解析っぽいことをしている人もいるでしょうが、
そういう人向けに一番売れているのがこれです。


ついに、第3版が出ました。
昨日23日でしたが、既に売ってました。

◎仕事に役立つExcel統計解析 第3版:2604円
仕事に役立つExcel統計解析 第3版 (Excel徹底活用シリーズ) [大型本] / 日花 弘子 (著); ソフトバンククリエイティブ (刊)


CHAPTER 01 統計とは
CHAPTER 02 統計の基本
CHAPTER 03 回帰分析
CHAPTER 04 母集団と標本
CHAPTER 05 確率分布
CHAPTER 06 推定
CHAPTER 07 検定
CHAPTER 08 分散分析



回帰分析、検定、分散も出ているので、
初心者本でありますが、
かなりコストパフォーマンスの良い書籍です。



◎マンガでわかる統計学 :2100円
マンガでわかる統計学 [単行本] / 高橋 信, トレンドプロ (著); オーム社 (刊)



◎はじめての統計学:2345円

・暗記をするな、考える力をつけよう。

・練習問題があるので、学習した内容を理解したか、確認できるので便利。
・アマゾンだと、この書籍にたどりつかない限り、評価がわからないと思いますが、
 書店では、手に取れば一発でわかる、良書です。

はじめての統計学 [単行本] / 鳥居 泰彦 (著); 日本経済新聞社 (刊)
posted by アンドレアス at 13:12| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

SAS 9.3が発表!分析能力が10〜15倍になり、iPhoneやiPad向けレポーティングツールも追加されました。で、値段は・・・おおーーッ!(^^)

●2011年第4四半期リリース予定。

・次期BI製品「SAS Add-In for Microsoft Office 5.1」「SAS Enterprise Guide 5.1」

・iPhone/iPad、Androidに対応する「SAS Mobile」を


価格は基本的なソリューションで2000万〜3000万円程度。


なるほど、RとかHadoopを、まずは使おうとするのは、
そういうことだったのか(^^)。


◎統計を知らない人のためのSAS入門:3,150円

統計を知らない人のためのSAS入門 [単行本(ソフトカバー)] / 大橋 渉 (著); オーム社 (刊)





◎SASハンドブック :8,925円
SASハンドブック :8,925

・SASソフト最新版Ver 9準拠
・学生・院生・研究者等が幅広く利用できるようにハンドブック形式


800ページ以上あるので、昨日、手にとってびっくりしました。(^^)

SASハンドブック [単行本] / 宮岡 悦良, 吉澤 敦子 (著); 共立出版 (刊)





◎実用SAS生物統計ハンドブック―SAS 8.2及びSAS 9.1対応:3990円

・ロジスティック回帰、分散分析、生存時間分析等の、主要な統計手法が網羅
・例数設計に関するSASマクロあり

実用SAS生物統計ハンドブック―SAS 8.2及びSAS 9.1対応 [単行本] / 臨床評価研究会(ACE)基礎解析分科会, SAS Institute Japan (著); 浜田 知久馬 (監修); サイエンティスト社 (刊)



◎ロジスティック回帰分析―SASを利用した統計解析の実際:5250円

・ロジスティック回帰分析
ロジスティック回帰分析―SASを利用した統計解析の実際 (統計ライブラリー) [単行本] / 丹後 俊郎, 高木 晴良, 山岡 和枝 (著); 朝倉書店 (刊)




◆統計

・「t検定」の代表的な使用法・・・「二つの平均値には、本当に差があるか?」の検討

・カイ二乗検定、
 p-value、棄却


・カイ二乗適合度検定
 標本データの分布は、標本データが所属する集団の分布と同じであるかどうか



◎マンガでわかる統計学 回帰分析編:2310円
マンガでわかる統計学 回帰分析編 [単行本] / 高橋 信, 井上 いろは, トレンドプロ (著); オーム社 (刊)


◎マンガでわかる統計学:2100円
マンガでわかる統計学 回帰分析編


posted by アンドレアス at 12:07| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

2011年09月23日

Rによるテキストマイニング 形態素原形と形態素表層形の出力


・形態素原形を出力するには、(" ",1)を。
・形態素表層形を出力するには、(" ",0)を。(こっちがデフォルトですね)


例)24風の文です。どうでも、いいけど・・・。

> res<-RMeCabC("両手を上に上げた。",1)
> unlist(res)
名詞 助詞 名詞 助詞 動詞 助動詞 記号
"両手" "を" "上" "に" "上げる" "た" "。"
> res<-RMeCabC("両手を上に上げた。",0)
> unlist(res)
名詞 助詞 名詞 助詞 動詞 助動詞 記号
"両手" "を" "上" "に" "上げ" "た" "。"
posted by アンドレアス at 01:25| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

「Rによるテキストマイニング入門」で、青空文庫が出てくるんですが、夏目漱石の「それから」をダウンロードしてnkfして読んでみました

ご覧の通り、
文字コードがShift-JIS、改行コードがCR+LFなので、
nkfでUTF-8に変換し、改行コードもLFにしました。

http://www.aozora.gr.jp/cards/000148/card1746.html


ちょっと読みにくいけど、いいですね、青空文庫って。

■書籍とURL
 http://mecab.sourceforge.net/#download
 http://sites.google.com/site/rmecab/home/rmecab_0-94

■Rによるテキストマイニング入門:円
Rによるテキストマイニング入門 [単行本(ソフトカバー)] / 石田 基広 (著); 森北出版 (刊)


■Rによるデータサイエンス - データ解析の基礎から最新手法まで:円

Rによるデータサイエンス - データ解析の基礎から最新手法まで [単行本(ソフトカバー)] / 金 明哲 (著); 森北出版 (刊)
posted by アンドレアス at 01:03| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

2011年09月22日

Rによるテキストマイニングのため、mecabとRMecabを追加インストールしたので、ちょっとmecabで形態素にしてみる

mecabも辞書も両方UTF-8で
configureし直してインストールし直しました。



$ mecab
こんにちは、私はジャックバウアーです。
こんにちは 感動詞,*,*,*,*,*,こんにちは,コンニチハ,コンニチワ
、 記号,読点,*,*,*,*,、,、,、
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
ジャックバウアー 名詞,一般,*,*,*,*,*
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。 記号,句点,*,*,*,*,。,。,。
EOS


EOSは、End of Sentence(文の終端、終わり)を意味します。

ふむふむ、きちんと、ジャックバウアーが名詞だと見分けてますね。

大阪弁は、どうかな?


なんでやねん、誰がジャックバウアーやねん。
なんで 副詞,一般,*,*,*,*,なんで,ナンデ,ナンデ
や 助動詞,*,*,*,特殊・ヤ,基本形,や,ヤ,ヤ
ねん 助詞,終助詞,*,*,*,*,ねん,ネン,ネン
、 記号,読点,*,*,*,*,、,、,、
誰 名詞,代名詞,一般,*,*,*,誰,ダレ,ダレ
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
ジャックバウアー 名詞,一般,*,*,*,*,*
や 助動詞,*,*,*,特殊・ヤ,基本形,や,ヤ,ヤ
ねん 助詞,終助詞,*,*,*,*,ねん,ネン,ネン
。 記号,句点,*,*,*,*,。,。,。
EOS


「や」と「ねん」って切れるんだっけ(苦笑)?

中学レベルの国語の文法な気がするが、
もう忘れました(^^)。


まあ、いいです、これくらいで。


■書籍とURL
 http://mecab.sourceforge.net/#download
 http://sites.google.com/site/rmecab/home/rmecab_0-94

■Rによるテキストマイニング入門:円
Rによるテキストマイニング入門 [単行本(ソフトカバー)] / 石田 基広 (著); 森北出版 (刊)


■Rによるデータサイエンス - データ解析の基礎から最新手法まで:円

Rによるデータサイエンス - データ解析の基礎から最新手法まで [単行本(ソフトカバー)] / 金 明哲 (著); 森北出版 (刊)
posted by アンドレアス at 21:42| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

Rによるテキストマイニングのため、mecabとRMecabを追加インストールする


■環境
 OS:Fedora15

・ダウンロードするもの
1.MeCab
 本体です。
2.MeCab 用の辞書
 IPA 辞書です。
3.perlバインディング(Perlを使うので)
 http://sourceforge.net/projects/mecab/files/mecab-perl/

全部ソースからですが、
IPA 辞書、$ ./configure --with-charset=utf-8 したんだけど。


むむっ?
「端末」の文字コードをeucにすると、
正常表示できたということは、UTF8でconfigureできてないってことか。

./configureオプションつけて、
やり直したんだけど、もう1回ソースから展開し直すか。
(で、いけました。)

よしよし。
ちゃんとUTF8で正常表示できるようになりました。


$ mecab -N2

mecab 名詞,固有名詞,組織,*,*,*,*
- 名詞,サ変接続,*,*,*,*,*
N 名詞,一般,*,*,*,*,*
2 名詞,数,*,*,*,*,*
EOS
今日もしないとね。
今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
も 助詞,係助詞,*,*,*,*,も,モ,モ
し 動詞,自立,*,*,サ変・スル,未然形,する,シ,シ
ない 助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
と 助詞,接続助詞,*,*,*,*,と,ト,ト
ね 助詞,終助詞,*,*,*,*,ね,ネ,ネ
EOS



うむ、こないだ、Apache Solrではうまくできなかった
形態素解析ができた!

さすが、Mecabです。
(Apache Solrを、ほったらかにしていることにも気づいた、今(-。-))。


■書籍とURL
 http://mecab.sourceforge.net/#download
 http://sites.google.com/site/rmecab/home/rmecab_0-94

■Rによるテキストマイニング入門:円
Rによるテキストマイニング入門 [単行本(ソフトカバー)] / 石田 基広 (著); 森北出版 (刊)


■Rによるデータサイエンス - データ解析の基礎から最新手法まで:円

Rによるデータサイエンス - データ解析の基礎から最新手法まで [単行本(ソフトカバー)] / 金 明哲 (著); 森北出版 (刊)
posted by アンドレアス at 21:12| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

2011年09月19日

今からデータマイニングを始める人のための独学できる教科書的なものを作ってみる(1)

先日も書きましたが、
最近、Web系サービスを展開している企業の
エンジニアブログをよく見ています。

今もサイバーエージェントのを見ていたんですが。
http://ameblo.jp/principia-ca/entry-11001506395.html


これですけど、気づく人は気づくと思うんですけど、
Apache Mahoutを作っている人(達)がいて、
こういうのを全部理解しているんだよな、って思うわけです。

日本だと、ブログに記載だけしてれば、
先進的イメージを持たれるかも知れませんが、
彼らはとっくに作っているんですよね。


どんだけ先に行っているやつらがいるんだ

と思うと同時に、
だからこそ、「好奇心」や「闘争心」、「俺も作らなきゃ心」なんかが
生まれるんですね。


データマイニングに関しては、
「IT分野としての教科書がない」わけですが、
少しジャンルを理系な方向にずらせば、
バイオインフォとか、理学部、一部の経済学とかでは、
参考になることをやっているので、
それを教科書にして、マイニング目的を
IT業界での対象に変更して成果を出す必要があるという
ことになります。



■環境構築
OS:Fedora15

■必要インストール
R






データマイニング

1.Cross Validation(交差検証法)
 1:  テストデータセット
 Nー1: データセット訓練用のデータセット

最終的に、平均を求めることになる。

2.モデル式

3.PCA(Principal Component Analysis:主成分分析)・・・・教師無し学習

*教師無し学習=>「出力すべきもの」があらかじめ決まっていない

http://ja.wikipedia.org/wiki/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90
Wikiに、「共分散行列の固有値問題の解として得ることができる」とあるので、
行列を学習しないといけないことは、理解できますよね(^^)


教師無し学習には、下記があります。
・クラスター分析
・主成分分析
・ベクトル量子化
・自己組織化マップ
・強化学習




PCA(主成分分析)を行うためのパッケージとして、
amapパッケージをインストールする。
(この他にも色々なパッケージが存在するが割愛)

# R

> install.packages("amap")
--- このセッションで使うために、CRANのミラーサイトを選んでください ---
CRAN mirror

日本にいるので、40か41を入力し、Enterキーを押します。

(途中省略)

ダウンロードされたパッケージは、以下にあります
‘/tmp/Rtmpi6VIPE/downloaded_packages’
'.Library' 中のパッケージの HTML 索引を更新します
packages.htmlの作成 完了


成功しました。


> library(amap)

使用関数:acp
分析対象:irisデータセット

irisデータセットは、irisコマンドを実行すると
表示されます。
5列目のSpecies「あやめ3品種 [setosa・versicolor・virginica]」は、
削除するので、下記のように[,-5]とします。


> data.acp <- acp(iris[,-5])

> summary(data.acp)
Length Class Mode
eig 4 -none- numeric
sdev 4 -none- numeric
scores 600 -none- numeric
loadings 16 -none- numeric

> data.acp$scores
Comp 1 Comp 2 Comp 3 Comp 4
[1,] -2.25714118 -0.478423832 -0.127279624 0.024087508
[2,] -2.07401302 0.671882687 -0.233825517 0.102662845

(途中省略)

[148,] 1.51609145 -0.268170747 0.179576781 0.118773236
[149,] 1.36820418 -1.007877934 0.930278721 0.026041407
[150,] 0.95744849 0.024250427 0.526485033 -0.162533529
> data.acp$loadings
Comp 1 Comp 2 Comp 3 Comp 4
Sepal.Length 0.5210659 -0.37741762 -0.7195664 0.2612863
Sepal.Width -0.2693474 -0.92329566 0.2443818 -0.1235096
Petal.Length 0.5804131 -0.02449161 0.1421264 -0.8014492
Petal.Width 0.5648565 -0.06694199 0.6342727 0.5235971



上でやったsummaryの引数をirisでそのまま渡すと
下記になります。

> summary(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
Median :5.800 Median :3.000 Median :4.350 Median :1.300
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
Species
setosa :50
versicolor:50
virginica :50



◎Rによるバイオインフォマティクスデータ解析 第2版 −Bioconductorを用いたゲノムスケールのデータマイニング−:4830円
Rによるバイオインフォマティクスデータ解析 第2版 −Bioconductorを用いたゲノムスケールのデータマイニング− [単行本] / 樋口 千洋 (著); 共立出版 (刊)


◎統計解析環境Rによるバイオインフォマティクスデータ解析−Bioconductorを用いたゲノムスケールのデータマイニング−〔CD-ROM付〕:円
統計解析環境Rによるバイオインフォマティクスデータ解析−Bioconductorを用いたゲノムスケールのデータマイニング−〔CD-ROM付〕 [単行本] / 樋口 千洋, 石井 一夫 (著); 共立出版 (刊)


■Omega ProjectよりRCurlをインストール


> new.packages(repos="http://www.omegahat.org/R/")
[1] "Aspell" "BioCDep" "CGIwithR"
[4] "CORBA" "CodeDepends" "Combinations"
(長いので省略)


> install.packages("RCurl",repos="http://www.omegahat.org/R/")










■階層クラスタリング・・・似たもののグループ化
・Euclid Distance(ユークリッド距離)
・デンドログラム(樹状図)

参考:
http://aoki2.si.gunma-u.ac.jp/lecture/misc/clustan.html

◎大参考
http://133.100.216.71/R_analysis/0r_analysis.html

距離マトリックスの作成,チェイニング効果,空間濃縮

☆☆☆☆☆ 隠れたトレンドを探る:多変量解析
主成分分析
相関係数自体が情報の宝庫
http://www5.ocn.ne.jp/~shinya91/csm/331csm_multi.html
ここからのリンクもすごいサイトばかり。

がんばろ!


クラスタとPCA(主成分分析)をまず徹底して
押さえにかかろうと思っていた俺は、意外に正しかったみたい。

posted by アンドレアス at 22:44| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする

2011年09月17日

あれから1年・・・再び始めるR。これから旬なスキルの1つとなることは間違いない!

1年前に、既に手を出してました。

カテゴリ作成していなかったので、
自分のブログなのに、見つけるのに、
難儀しました(^^)



◎環境
OS:Fedora15
R:2.13.1

◎セットアップ手順

http://www.r-project.org/
よりダウンロード。

2010/8/28: R 2.11.1
↓あれから1年
2011/9/17: R 2.13.1


また、だ!
configure: error: --with-x=yes (default) and X11 headers/libs are not available

再び、下記で実施。
./configure --with-x=no

make

make install








◎Rによるテキストマイニング入門 :2940円
Rによるテキストマイニング入門 [単行本(ソフトカバー)] / 石田 基広 (著); 森北出版 (刊)




◎"データマイニング入門:3570円
データマイニング入門 [単行本] / 豊田 秀樹 (著); 東京図書 (刊)


◎Rによるバイオインフォマティクスデータ解析 第2版 −Bioconductorを用いたゲノムスケールのデータマイニング−:円
Rによるバイオインフォマティクスデータ解析 第2版 −Bioconductorを用いたゲノムスケールのデータマイニング− [単行本] / 樋口 千洋 (著); 共立出版 (刊)

posted by アンドレアス at 02:08| Comment(0) | TrackBack(0) | R | このブログの読者になる | 更新情報をチェックする