2012年11月23日

「パターンでわかるHadoop MapReduce」「2章 Hadoopの開発を支援する技術」を読んでますが、自分には、ちょうど良い内容です

「パターンでわかるHadoop MapReduce」を読んでおります。

Apache Mahout とか、ZooKeeperとか、Avroとか、
色々、簡単な説明があります。

6章までは、一気に読んで、
6章以降は、具体例を見ながら、手を動かしていける本に
なってます。

買った甲斐がありました。

後で、Mahout本も買ってこよう。

◎パターンでわかるHadoop MapReduce:3,570円パターンでわかるHadoop MapReduce ビッグデータのデータ処理入門 (NEXT‐ONE) [大型本] / 三木 大知 (著); 翔泳社 (刊)




◎Hadoopファーストガイド:2,520円
P66~ CentOS6.2 + Apache Hadoopを使用しています。
Hadoopファーストガイド [単行本] / 佐々木 達也 (著); 秀和システム (刊)


posted by アンドレアス at 22:59| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

Hadoopに時間を割いて、Hadoop書籍を一気読み。一部、Fedora17上に環境構築(追記中)

覚えているうちに、
Fedora17でも、やっておこう、と。

もう今日は、これにて、おしまいです。


◎Hadoopファーストガイド:2,520円
P66~ CentOS6.2 + Apache Hadoopを使用しています。
Hadoopファーストガイド [単行本] / 佐々木 達也 (著); 秀和システム (刊)


◎パターンでわかるHadoop MapReduce:3,570円パターンでわかるHadoop MapReduce ビッグデータのデータ処理入門 (NEXT‐ONE) [大型本] / 三木 大知 (著); 翔泳社 (刊)


■Fedora17 + Hadoop1.0.4

1.環境準備Java SE Development Kit 7u9ソースファイル
http://www.oracle.com/technetwork/java/javase/downloads/jdk7u9-downloads-1859576.html

ただ、既にパッケージでインストールされていたので、
このまま下記を使い、ソースインストールは
やめておきます。
(何か不具合が発生した場合には、ソースインストールして
 .bashrcも修正・切り替えることにします。)

$ java -version
java version "1.7.0_09-icedtea"
OpenJDK Runtime Environment (fedora-2.3.3.fc17-x86_64)
OpenJDK 64-Bit Server VM (build 23.2-b09, mixed mode)



後から使用する=>Cloudera
https://ccp.cloudera.com/display/SUPPORT/Downloads
*ログイン確認とか。


■ユーザー追加と環境変数設定
useradd hadoop
passwd hadoop

-----------------------------
/home/hadoop/.bashrc に追記
-----------------------------
export JAVA_HOME=/usr/lib/jvm/jre-1.7.0-openjdk.x86_64
export HADOOP_INSTALL=/usr/local/hadoop-1.0.4
export PATH=$HADOOP_INSTALL/bin:$JAVA_HOME/bin:$PATH

source .bashrc の後、以下を実行確認する。

$ hadoop version

Hadoop 1.0.4
Subversion https://svn.apache.org/repos/asf/hadoop/common/branches/branch-1.0 -r 1393290
Compiled by hortonfo on Wed Oct 3 05:13:58 UTC 2012
From source with checksum fe2baea87c4c81a2c505767f3f9b71f4



2.スタンドアローンモード:確認終了


$ hadoop jar /usr/local/hadoop-1.0.4/hadoop-examples-1.0.4.jar wordcount input output

$ cat output/part-r-00000
a 3
b 2
c 4

input/a や input/bファイルの準備は、
「Hadoopファーストガイド」P74を参考に。



3.疑似分散モード:確認終了

・事前設定
$ cat .ssh/id_dsa.pub >> .ssh/authorized_keys
$ chmod 600 .ssh/authorized_keys
$ cd /usr/local/hadoop-1.0.4/conf

以下3ファイルをP79を参考に、修正追記保存する。
core-site.xml
mapred-site.xml
hdfs-site.xml

・HDFSのフォーマット
$ hadoop namenode -format

・デーモン起動
$ cd ../bin/
$ pwd
/usr/local/hadoop-1.0.4/bin

$ ./start-all.sh

$ jps 起動中のJavaアプリのプロセスIDだけ表示する。

3975 TaskTracker
3733 SecondaryNameNode
4085 Jps
3451 NameNode
3581 DataNode
3842 JobTracker


$ hadoop fs -put input input
$ hadoop fs -ls input
Found 2 items
-rw-r--r-- 1 hadoop supergroup 10 2012-11-23 10:44 /user/hadoop/input/a
-rw-r--r-- 1 hadoop supergroup 22 2012-11-23 10:44 /user/hadoop/input/b

$ cd hadoop-1.0.4/bin/

$ ./start-all.sh

$ jps
4034 Jps
3005 SecondaryNameNode
3104 JobTracker
3210 TaskTracker
2789 NameNode
2893 DataNode

$ hadoop jar /usr/local/hadoop-1.0.4/hadoop-examples-1.0.4.jar wordcount input output

$ hadoop fs -cat output/part-r-00000
a 3
b 2
c 4
d 6
e 1

ネームノードとJobトラッカーのWebインターフェース画像が
以下です。
ネームノード => http://localhost:50070/
Jobトラッカー => http://localhost:50030/

hadoop_giji2.png
hadoop_giji1.png




[参照]Hadoopファーストガイド:P66~P86

posted by アンドレアス at 15:45| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

朝だけ、Hadoopに時間を割いて、Hadoop書籍を一気読み。一部、CentOS6.3(VM)上に環境構築(追記中)

ずっと、ほったらかしになっているHadoop書籍を2冊
取り出して、一気読み。

◎Hadoopファーストガイド:2,520円
P66~ CentOS6.2 + Apache Hadoopを使用しています。
Hadoopファーストガイド [単行本] / 佐々木 達也 (著); 秀和システム (刊)


◎パターンでわかるHadoop MapReduce:3,570円パターンでわかるHadoop MapReduce ビッグデータのデータ処理入門 (NEXT‐ONE) [大型本] / 三木 大知 (著); 翔泳社 (刊)


■CentOS6.3(VM) + Hadoop1.0.4

1.環境準備Java SE Development Kit 7u9ソースファイル
http://www.oracle.com/technetwork/java/javase/downloads/jdk7u9-downloads-1859576.html

Hadoopソースファイル
http://ftp.jaist.ac.jp/pub/apache/hadoop/common/hadoop-1.0.4/


後から使用する=>Cloudera
https://ccp.cloudera.com/display/SUPPORT/Downloads
*ログイン確認とか。


2.スタンドアローンモード:確認終了


3.疑似分散モード:確認終了

$ hadoop fs -put input input
$ hadoop fs -ls input
Found 2 items
-rw-r--r-- 1 hadoop supergroup 10 2012-11-23 10:44 /user/hadoop/input/a
-rw-r--r-- 1 hadoop supergroup 22 2012-11-23 10:44 /user/hadoop/input/b

$ cd hadoop-1.0.4/bin/

$ ./start-all.sh

$ jps
4034 Jps
3005 SecondaryNameNode
3104 JobTracker
3210 TaskTracker
2789 NameNode
2893 DataNode

$ hadoop jar /usr/local/hadoop-1.0.4/hadoop-examples-1.0.4.jar wordcount input output

$ hadoop fs -cat output/part-r-00000
a 3
b 2
c 4
d 6
e 1

ネームノードとJobトラッカーのWebインターフェース画像が
以下です。
ネームノード => http://localhost:50070/
Jobトラッカー => http://localhost:50030/

hadoop_giji2.png
hadoop_giji1.png




[参照]Hadoopファーストガイド:P66~P86

posted by アンドレアス at 08:36| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2012年05月02日

Hadoop 1.0.0 Release Notesを読む

Hadoop 1.0.0 Release Notes
http://hadoop.apache.org/common/docs/r1.0.0/releasenotes.html

http://www.publickey1.jp/blog/12/hadoop102030.html


◎Hadoop徹底入門:3,990円
Hadoop徹底入門 [大型本] / 太田 一樹, 下垣 徹, 山下 真一, 猿田 浩輔, 藤井 達朗 (著); 濱野 賢一朗 (監修); 翔泳社 (刊)


◎Hadoop 第2版:5,040円
Hadoop 第2版 [大型本] / Tom White (著); 玉川 竜司, 兼田 聖士 (翻訳); オライリージャパン (刊)
posted by アンドレアス at 07:03| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2012年03月17日

短時間でHadoopを動かして「ふむ、ふむ」と言えるようになるには・・・(その1)

ということで、この休み中に
この内容をやります。
(と言いつつ、早くも外出しないといけないんですが・・わーい(嬉しい顔)


■1台構成のHadoopを30分で試してみる(CentOS + Cloudera)
http://saburi380.blogspot.com/2009/11/301hadoopcentos-cloudera.html

■Hadoopのインストールとサンプルプログラムの実行
http://codezine.jp/article/detail/2485?p=1

■Hadoopユーザー会
https://groups.google.com/group/hadoop-jp?hl=ja

■Hadoopユーザー会: HDFSのスケーラビリティ オプション
https://groups.google.com/group/hadoop-jp/browse_thread/thread/a9601a55cf9319d6?hl=ja

■リクルートが「Greenplum」先行導入、国内初の“次世代Hadoop”ユーザーに
http://cloud.watch.impress.co.jp/docs/news/20110926_479696.html

■Hadoop、hBaseで構築する大規模分散データ処理システム
http://codezine.jp/article/detail/2448

■Hadoop トレーニングと認定資格
http://www.cloudera.co.jp/products-services/productservices_training.html

■Cloudera Apache Hadoop 開発者向けトレーニング - Tokyo - 3月26-29日
http://www.eventbrite.com/event/2852450757/rss


◎Hadoop 第2版:5,040円
Hadoop 第2版 [大型本] / Tom White (著); 玉川 竜司, 兼田 聖士 (翻訳); オライリージャパン (刊)


◎Hadoop徹底入門:3,990円
Hadoop徹底入門 [大型本] / 太田 一樹, 下垣 徹, 山下 真一, 猿田 浩輔, 藤井 達朗 (著); 濱野 賢一朗 (監修); 翔泳社 (刊)


◎Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理:2,940円
Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理 [大型本] / Jimmy Lin, Chris Dyer (著); 神林 飛志, 野村 直之 (監修); 玉川 竜司 (翻訳); オライリージャパン (刊)
posted by アンドレアス at 08:02| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2012年03月02日

Tech総研の一気読み。キーワード:Hadoop,pig,Hive,MapReduce,HUE,Perl,Java,R,Apache Mahout,統計解析,時系列解析,機械学習,大規模分散処理,JavaScript,Node.js,Arctic.js


新年会CROSSでDeNAが語ったWebテクノロジー展望とは/Tech総研
http://rikunabi-next.yahoo.co.jp/tech/docs/ct_s03600.jsp?p=002054

キーワード:Hadoop,pig,Hive,MapReduce,HUE,Perl,Java,R,Apache Mahout,統計解析,時系列解析,機械学習,大規模分散処理,JavaScript,Node.js,Arctic.js

Arctic.jsは、これですね。
https://github.com/DeNADev/Arctic.js


伊藤穣一氏、石井裕氏が日本企業トップと語り合った日/Tech総研
http://rikunabi-next.yahoo.co.jp/tech/docs/ct_s03600.jsp?p=002092

誰も分け入った事の無い原野を一人切り拓き、まだ生まれていない道を一人全力疾走すること、それが競創だ。そこには観客も審判もストップウォッチも存在しない


ユーザーの心を動かす任天堂のネットワークエンジニア/Tech総研
http://rikunabi-next.yahoo.co.jp/tech/docs/ct_s03600.jsp?p=002015


サイバーエージェント、女性エンジニア採用強化の真意/Tech総研
http://rikunabi-next.yahoo.co.jp/tech/docs/ct_s03600.jsp?p=002042




◎Hadoop徹底入門:5,040円

Hadoop徹底入門 [大型本] / 太田 一樹, 下垣 徹, 山下 真一, 猿田 浩輔, 藤井 達朗 (著); 濱野 賢一朗 (監修); 翔泳社 (刊)



◎Hadoop 第2版:3,990円

Hadoop 第2版 [大型本] / Tom White (著); 玉川 竜司, 兼田 聖士 (翻訳); オライリージャパン (刊)



◎Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理:2,940円

Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理 [大型本] / Jimmy Lin, Chris Dyer (著); 神林 飛志, 野村 直之 (監修); 玉川 竜司 (翻訳); オライリージャパン (刊)

posted by アンドレアス at 07:04| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2012年01月09日

2011年10月24日

(簡易アナウンス)別ブログに分離させます。「Hadoopで分析・解析する前に学んでおきたいこと」

先日から書いてましたが、
Hadoop、R、統計、MapReduceなどは、別ブログにします。


---------------------------------------------------
ブログ
「Hadoopで分析・解析する前に学んでおきたいこと」http://hadoop2012.seesaa.net/

---------------------------------------------------

まあ、実際、まじめにやると、
肝心のHadoopが、ぜんぜん、できなくなるんですけどね(^^)。


最近、Javaを「時間が無いにも関わらずやっている(やろうとしている)」のは、
このHadoopが理由です。

Java以外でもできるだろうという声もありますが、
やっぱ、Javaできると、Java以外を考えずに済みますからね。

Javaを身につける方が、効率良いので。

Androidもやっている今のタイミングでやるしかない、と。


posted by アンドレアス at 00:46| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年10月21日

Hadoopで分析・解析する前に学んでおきたいこと。 「標本抽出」 データが多すぎて調べきれない場合に、「標本抽出」を使うわけですが、「母集団」と「標本」について理解していないと・・・。

もう寝ます・・・・。




●まとめ


・「全数調査」と「標本調査」
 調査内容だけではなく、調査対象の範囲にも、注意すること。

 全て、と一部、の使い分け。

・標本調査は全数調査に匹敵しないと意味がない。

 意思なく、偏り無く、万遍なく。
 「無作為抽出」

「母集団」から「標本抽出」を行う


・「母平均」と「標本平均」



◎仕事に役立つExcel統計解析 第3版 (Excel徹底活用シリーズ):¥ 2,604
Excel活用書 売れ行きNo.1 シリーズ累計20万部。Excel 2000/2002/2003/2007/2010対応

仕事に役立つExcel統計解析 第3版 (Excel徹底活用シリーズ) [大型本] / 日花 弘子 (著); ソフトバンククリエイティブ (刊)

CHAPTER 01 統計とは
CHAPTER 02 統計の基本
CHAPTER 03 回帰分析
CHAPTER 04 母集団と標本
CHAPTER 05 確率分布
CHAPTER 06 推定
CHAPTER 07 検定
CHAPTER 08 分散分析


====================================

◎仕事に役立つExcel 統計解析 改訂版 仕事に役立つ (Excel徹底活用シリーズ) :¥ 2,604

仕事に役立つExcel 統計解析 改訂版 仕事に役立つ (Excel徹底活用シリーズ) [大型本] / 日花 弘子 (著); ソフトバンククリエイティブ (刊)

改定のサイクルも早いので、
改訂が2年後か3年後にもあると思います。


それくらい、わかりやすく、カバーしている範囲も広い書籍です。
(実際のHadoopでの解析では、この書籍の内容以上に
 どっぷり解析方法を知る必要があるわけですけど)
posted by アンドレアス at 01:15| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

Hadoopで分析・解析する前に学んでおきたいこと。 「検定」 それは、偶然なのか?必然なのか?

さっき、Yahoo JAPAN!で
こんなニュースが。


数学、物理得意だと高所得=「国語」と180万円差―大卒就業者1万人調査
http://headlines.yahoo.co.jp/hl?a=20111020-00000145-jij-soci

見ると、どこの大学生に聞いているのか?

とか

文系・理系の比率は?

とか

数学・物理・国語、それぞれ、MAX収入の人はいくら?

とか、単純に結論づけて良いものではない気がするんですが、
「理系」が増えるようにという「意図」もあるでしょうから、
こういう調査結果なのかなと思います。


数学・物理が得意で、
外資系金融機関に就職した人が、いくらとか
もっとリアルにデータを見ないと、
一概に「あー、そうか」とはならないですよね。

================================


●まとめ

「検定」とは・・・。

・検定は、偶然とは言えない差があるかないかを検証するための解析手段。

・宝くじなどの「アタリ」「ハズレ」のような二項分布で検定の確立を求めるのは、
 わかりやすい例だ。

・分布の隅っこにある、「めったに起こらない」部分にフォーカスしたか解析手法

「両側検定」「片側検定」がある。

片側検定は、「製品寿命の変化」が例としてあげられる。



Z検定とt検定とF検定








◎仕事に役立つExcel統計解析 第3版 (Excel徹底活用シリーズ):¥ 2,604
Excel活用書 売れ行きNo.1 シリーズ累計20万部。Excel 2000/2002/2003/2007/2010対応

仕事に役立つExcel統計解析 第3版 (Excel徹底活用シリーズ) [大型本] / 日花 弘子 (著); ソフトバンククリエイティブ (刊)

CHAPTER 01 統計とは
CHAPTER 02 統計の基本
CHAPTER 03 回帰分析
CHAPTER 04 母集団と標本
CHAPTER 05 確率分布
CHAPTER 06 推定
CHAPTER 07 検定
CHAPTER 08 分散分析


====================================

◎仕事に役立つExcel 統計解析 改訂版 仕事に役立つ (Excel徹底活用シリーズ) :¥ 2,604

仕事に役立つExcel 統計解析 改訂版 仕事に役立つ (Excel徹底活用シリーズ) [大型本] / 日花 弘子 (著); ソフトバンククリエイティブ (刊)

改定のサイクルも早いので、
改訂が2年後か3年後にもあると思います。


それくらい、わかりやすく、カバーしている範囲も広い書籍です。
(実際のHadoopでの解析では、この書籍の内容以上に
 どっぷり解析方法を知る必要があるわけですけど)



posted by アンドレアス at 00:24| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年10月20日

Hadoopで分析・解析する前に学んでおきたいこと。 偶然か必然か?一元配置、二元配置の分散分析

参照:「仕事に役立つExcel統計解析 第3版」(P300〜)

・偶然か必然か?一元配置、二元配置の分散分析

・検定


統計学では、ある事柄が起こる確率の判定基準に「5%」を使う。

この「5%」のことを「有意水準」と言う。


「帰無仮説」が棄却されないからといって、
「帰無仮説」は正しいと結論してはいけない。


今の時点で証拠が見つかっていないだけ、という程度なので。


◎仕事に役立つExcel統計解析 第3版 (Excel徹底活用シリーズ):¥ 2,604
Excel活用書 売れ行きNo.1 シリーズ累計20万部。Excel 2000/2002/2003/2007/2010対応

仕事に役立つExcel統計解析 第3版 (Excel徹底活用シリーズ) [大型本] / 日花 弘子 (著); ソフトバンククリエイティブ (刊)

CHAPTER 01 統計とは
CHAPTER 02 統計の基本
CHAPTER 03 回帰分析
CHAPTER 04 母集団と標本
CHAPTER 05 確率分布
CHAPTER 06 推定
CHAPTER 07 検定
CHAPTER 08 分散分析


====================================

◎仕事に役立つExcel 統計解析 改訂版 仕事に役立つ (Excel徹底活用シリーズ) :¥ 2,604

仕事に役立つExcel 統計解析 改訂版 仕事に役立つ (Excel徹底活用シリーズ) [大型本] / 日花 弘子 (著); ソフトバンククリエイティブ (刊)

改定のサイクルも早いので、
改訂が2年後か3年後にもあると思います。


それくらい、わかりやすく、カバーしている範囲も広い書籍です。
(実際のHadoopでの解析では、この書籍の内容以上に
 どっぷり解析方法を知る必要があるわけですけど)



posted by アンドレアス at 23:43| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

Hadoopで分析とか解析をやるならば、同時に読んでおかないといけないだろう書籍

単にプログラムで処理するだけならば、
開発の人がいれば、それで事足りるのでしょう。

しかし、実際は、数学の知識・考え方、
(もちろん統計を含みますが)が随所に要求されるので、
意外にも、なかなか人がいない、という状態のようです。


そこが穴だ!と思うエンジニアや企業ならば、
「統計」を猛速度で学ぶために、
下記の書籍が適切です。


既に、目ざとく「第3版」を見つけて買っている人が、
多いようです。
(書店の冊数の減り具合を、定期的に観察していると)



◎仕事に役立つExcel統計解析 第3版 (Excel徹底活用シリーズ):¥ 2,604
Excel活用書 売れ行きNo.1 シリーズ累計20万部。Excel 2000/2002/2003/2007/2010対応

仕事に役立つExcel統計解析 第3版 (Excel徹底活用シリーズ) [大型本] / 日花 弘子 (著); ソフトバンククリエイティブ (刊)

CHAPTER 01 統計とは
CHAPTER 02 統計の基本
CHAPTER 03 回帰分析
CHAPTER 04 母集団と標本
CHAPTER 05 確率分布
CHAPTER 06 推定
CHAPTER 07 検定
CHAPTER 08 分散分析


====================================

◎仕事に役立つExcel 統計解析 改訂版 仕事に役立つ (Excel徹底活用シリーズ) :¥ 2,604

仕事に役立つExcel 統計解析 改訂版 仕事に役立つ (Excel徹底活用シリーズ) [大型本] / 日花 弘子 (著); ソフトバンククリエイティブ (刊)

改定のサイクルも早いので、
改訂が2年後か3年後にもあると思います。


それくらい、わかりやすく、カバーしている範囲も広い書籍です。
(実際のHadoopでの解析では、この書籍の内容以上に
 どっぷり解析方法を知る必要があるわけですけど)

posted by アンドレアス at 22:45| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年10月11日

パターン認識・機械学習の初歩から対話システムまで、の「フリーソフトでつくる音声認識システム」

1.パターン認識システムの構成

パターン認識・・・

前処理部・・・

特徴抽出部・・・

パターン変動・・・

特徴ベクトル・・・

識別・・・

認識・・・

特徴空間・・・

特徴ベクトル・・・

識別辞書・・・

プロトタイプ・・・

Nearest Neighbor法・・・




つづく・・・・


◎フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで:3,570円

フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで [単行本(ソフトカバー)] / 荒木 雅弘 (著); 森北出版 (刊)

3年ほど前でしたか、書店でたまたま手にして驚嘆した本です。

その時は、これをまともにやり出すと、時間がまるでなくなると思い、
一旦買わずにいた書籍です。

ちょうどパターン認識とか機械学習とか旬なテーマでかつ、
オープンソースで、アマゾンレビューも非常に好評価です。

見れば中身のすごさ、丁寧さが、わかる本ですが、
1つだけ残念なのは、アマゾンでは、この書籍の内容が
イマイチ伝わりにくいところです。



◎入門 自然言語処理:3,990円入門 自然言語処理 [大型本] / Steven Bird, Ewan Klein, Edward Loper (著); 萩原 正人, 中山 敬広, 水野 貴明 (翻訳); オライリージャパン (刊)
posted by アンドレアス at 21:36| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年09月30日

早くもオライリーから、 「Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理」が先行発売中です

大きい書店には、並び始めました。

だいたい、土日前に並べるんですね、傾向としては。

なんとなく、パターンが読めてきた(^^)。


日経コンピュータでも大規模データの話が
特集されていますが、
もちろん、Hadoopが取り上げられています。

Rもです。



1.大雑把なHadoopのキーワードとなる知識

MapReduceアルゴリズム,Java,Apache Hadoop,
Hadoop Core,HDFS(Hadoop Distributed Filesystem,分散ファイルシステム,Google File SystemのJava実装)

・HBase(分散データベース,Googleの「BigTable」のJava実装),

・関数
 Map
 Shuffle:Mapの出力をキー順にソートし、同じKeyを持つペアを束ねる
 Reduce:

 map関数、reduce関数に処理を記述


使用目的:1.ログデータ解析
     ・Webサイト品質向上資料
     ・運用予測データ
     2.
 3.バッチ処理


2.本当に必要な能力
 (サンプル例だけできれば良いわけではない、とすると)
・統計(クラスター分析なんか当然の知識)
・解析
・数学(微分・積分・行列)
・プログラム(Java。もしくは他の言語)


3.代替

・言語に関する処理(テキストマイニング)なら、Rがある。


◆感想
・Hadoopを扱える人間は、間違いなく少ない。
 今後も、増えにくい
 (理系離れの傾向と社会人になって数学を学び直す人の希少さから)

・形態素解析などは、すでに著名なライブラリもあり、
 「解析・分析」時に統計・数学の知識を適用し、
 時には、新しく方法を作成するくらいの能力が必要。


3.Hadoop準備・・・色々ありますが・・。

3-1.http://www.cloudera.com/
  これでいいんじゃなかったっけ?
  参照:Web+DB PRESS Vol.59 

3-1.VMware Player(仮想マシン Fedora7)を使用したHadoop単体動作例
http://www.atmarkit.co.jp/fjava/special/distributed03/distributed03_1.html



◎WEB+DB PRESS Vol.59:1554円
WEB+DB PRESS Vol.59 [大型本] / 竹内 真, 猪狩 丈治, 矢野 りん, 中島 拓, 伊藤 敬彦, 角田 直行, はまちや2, 柄沢 聡太郎, 田中 正裕, 梶原 大輔, 藤本 真樹, 増井 俊之, 加藤 幹生, 藤澤 瑞樹, 木村 俊也, 永井 幸輔, 中尾 光輝, 平田 雄一, 渡辺 智暁, 藤 吾郎 (著); 技術評論社 (刊)


◎Hadoop徹底入門:円
Hadoop徹底入門 [大型本] / 太田 一樹, 下垣 徹, 山下 真一, 猿田 浩輔, 藤井 達朗 (著); 濱野 賢一朗 (監修); 翔泳社 (刊)


◎Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理:2940円

早くもデザインパターン本が出てきましたね。
それくらい、短時間での解決要求が強いってことですね。


Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理 [大型本] / Jimmy Lin, Chris Dyer (著); 神林 飛志, 野村 直之 (監修); 玉川 竜司 (翻訳); オライリージャパン (刊)


◎Hadoop 第2版:5040円
Hadoop 第2版 [大型本] / Tom White (著); 玉川 竜司, 兼田 聖士 (翻訳); オライリージャパン (刊)



◎ビッグデータを征す クラウドの技術 Hadoop&NoSQL:

一番売れているのはこれですね。
書店へ行けばわかります。


NoSQLのCassandraの連載がまとまって掲載されている点と
Hadoopのサンプルなども比較的簡単に実行して確認できるので。
上記にあげた書籍だとページ数が多いので、
まずは、薄い書籍・雑誌を探すと、このアスキーの雑誌に
到達するみたいです(^^)
ビッグデータを征す クラウドの技術 Hadoop&NoSQL [大型本] / ASCII.technologies集部 (編集); アスキー・メディアワークス (刊)
posted by アンドレアス at 22:32| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年09月27日

HadoopにApache Mahoutを追加する。その前に・・。

Mahoutを追加しようと思いますが、
その前に、読んでおこう。

http://mahout.apache.org/

マハウトは、ライブラリですが、
下記の機能を持つようです。



Mahout currently has

Collaborative Filtering
User and Item based recommenders
K-Means, Fuzzy K-Means clustering
Mean Shift clustering
Dirichlet process clustering
Latent Dirichlet Allocation
Singular value decomposition
Parallel Frequent Pattern mining
Complementary Naive Bayes classifier
Random forest decision tree based classifier
High performance java collections (previously colt collections)
A vibrant community
and many more cool stuff to come by this summer thanks to Google summer of code


と書きましたが、皆目わかりません(^^)。

おそらくWeb系の企業でも、
統計を学生時代に、一応やっていたくらいでは、
何のことかわからない人もいるんだろうと
思ったりします。

下記のディリクレなんて、
文系な私は、初めて聞きました。(^^)


日本語に訳す必要は無いと思うんですが、
一応、下記にメモしました。


◆英単語(10月にTOEICも、あるし)


Dirichlet:ドイツの数学者、素数分布についてのディリクレの定理、フーリエ級数の収束定理、境界値問題

latent: 潜在性の,表面に出ない,隠れている

singular:1つだけの,唯一の,無二の,並みはずれた,まれに見る,異例の

vibrant:(物が急速に)振動する,(弦などが)振動して音を発する,(場所・社会・生活が〉活力などで)みなぎる,活気がある

colt:初心者,新米

decompositon:分解(過程,状態),腐敗(過程,状態)

complementary:(…を)補充する,(…に)補足的な


じゃあ、これくらいにして
Mahaout入れる前に、統計の本を買ってきた方が・・・と
思ったけど、先にWebで、2、3調べた方が良さそうだな。


◎Rによるテキストマイニング入門:2940円

Rによるテキストマイニング入門 [単行本(ソフトカバー)] / 石田 基広 (著); 森北出版 (刊)


◎Rによるデータサイエンス - データ解析の基礎から最新手法まで:3780円
Rによるデータサイエンス - データ解析の基礎から最新手法まで [単行本(ソフトカバー)] / 金 明哲 (著); 森北出版 (刊)


◎Rによるやさしい統計学:2835円

Rによるやさしい統計学 [単行本] / 山田 剛史, 杉澤 武俊, 村井 潤一郎 (著); オーム社 (刊)
posted by アンドレアス at 16:07| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年09月26日

(追記しました。本日終了)Hadoop Pigは、SQLよりも易しい、可読性が高い、習得に、あまり時間がかからない、様々なデータ分析、生成アイデアを、トライ可能、というのは、ホンマか?(^^)というのを確かめてみる

Pig:スクリプト言語

ローカルモードというのがあり、Hadoop無しでも
動作確認できるとは知りませんでした。

さっさと触っておけば良かったな。わーい(嬉しい顔)


Pigは、様々なデータ分析、生成アイデアを、トライ可能とありますが、
その「様々なデータ分析、生成アイデア」は、
これまで様々な学者の人達が積み上げてきた
統計知識などから発想されるものが多いと思うわけで、
すると、統計・解析・数学に関する知識が無いと、
すぐに行き詰る日がやってくる、ということに変わりは無いと思うわけです。

Hadoopのセットアップだけできても仕方ないですもんね(^^)/。



Pigの実行は、この後追記します。

しばし、席をはずします。(- -)/~



◎pig起動・・・無駄な時間を要した・・(苦笑)

==================
~/.bash_profile
==================

export JAVA_HOME=/usr/java/jre1.6.0_25
PATH=/usr/local/hadoop:/root/ant-1.8.2/bin:$JAVA_HOME/bin:$PATH:$HOME/bin
export PATH


# ./pig -x local
2011-09-26 19:08:16,782 [main] INFO org.apache.pig.Main - Logging error messages to: /home/yutaka/ダウンロード/pig-0.9.0/bin/pig_1317031696777.log
2011-09-26 19:08:17,315 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: file:///
grunt>


grunt> pwd
file:/home/jack/ダウンロード/pig-0.9.0/bin







◎ビッグデータを征す クラウドの技術 Hadoop&NoSQL:

一番売れているのはこれですね。
書店へ行けばわかります。


NoSQLのCassandraの連載がまとまって掲載されている点と
Hadoopのサンプルなども比較的簡単に実行して確認できるので。
上記にあげた書籍だとページ数が多いので、
まずは、薄い書籍・雑誌を探すと、このアスキーの雑誌に
到達するみたいです(^^)


◎ビッグデータを征す クラウドの技術 Hadoop&NoSQL:円
ビッグデータを征す クラウドの技術 Hadoop&NoSQL [大型本] / ASCII.technologies集部 (編集); アスキー・メディアワークス (刊)


◎Hadoop徹底入門:円
Hadoop徹底入門 [大型本] / 太田 一樹, 下垣 徹, 山下 真一, 猿田 浩輔, 藤井 達朗 (著); 濱野 賢一朗 (監修); 翔泳社 (刊)


◎WEB+DB PRESS Vol.59:1554円
WEB+DB PRESS Vol.59 [大型本] / 竹内 真, 猪狩 丈治, 矢野 りん, 中島 拓, 伊藤 敬彦, 角田 直行, はまちや2, 柄沢 聡太郎, 田中 正裕, 梶原 大輔, 藤本 真樹, 増井 俊之, 加藤 幹生, 藤澤 瑞樹, 木村 俊也, 永井 幸輔, 中尾 光輝, 平田 雄一, 渡辺 智暁, 藤 吾郎 (著); 技術評論社 (刊)





◎Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理:2940円

早くもデザインパターン本が出てきましたね。
それくらい、短時間での解決要求が強いってことですね。


Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理 [大型本] / Jimmy Lin, Chris Dyer (著); 神林 飛志, 野村 直之 (監修); 玉川 竜司 (翻訳); オライリージャパン (刊)


◎Hadoop 第2版:5040円
Hadoop 第2版 [大型本] / Tom White (著); 玉川 竜司, 兼田 聖士 (翻訳); オライリージャパン (刊)


●ウォーミングアップ
Pigで使えるコマンド(初めて触る時に、早く次のステージへ行くために、バシバシうってしまう)

pwd
help
ls
mkdir tempdir



cp /etc/passwd /home/jack/ダウンロード/pig-0.9.0/bin/

pig -x local

・Interactive Mode(インタラクティブ・モード)

grunt> A = load 'passwd' using PigStorage(':');
grunt> B = foreach A generate $0 as id;
grunt> dump B;

・Batch Mode(バッチ・モード)

============
vi id.pig
============
/* id.pig */

A = load 'passwd' using PigStorage(':'); -- load the passwd file
B = foreach A generate $0 as id; -- extract the user IDs
store B into ‘id.out’; -- write the results to a file name id.out





# ls -laR id.out
id.out:
合計 16
drwxrwxr-x 2 root root 4096 9月 26 20:29 .
drwxr-xr-x 4 jack jack 4096 9月 26 20:30 ..
-rw-rw-r-- 1 root root 12 9月 26 20:29 .part-m-00000.crc
-rwxrwxrwx 1 root root 389 9月 26 20:29 part-m-00000

cat id.out/part-m-00000 を見ると、
ユーザアカウントが表示されるわけですね。


===========
ctu
===========
Jack:43
Tony:38
Renee:33
Chloe:34


./pig -x local

grunt> A = LOAD 'ctu' USING PigStorage(':') AS (name:chararray, age:int);
grunt> B = FOREACH A GENERATE name;
grunt> dump B;



HadoopVersion PigVersion UserId StartedAt FinishedAt Features
0.20.2 0.9.0 root 2011-09-26 21:49:14 2011-09-26 21:49:28 UNKNOWN

Success!

Job Stats (time in seconds):
JobId Alias Feature Outputs
job_local_0001 A,B MAP_ONLY file:/tmp/temp389806136/tmp1944195780,

Input(s):
Successfully read records from: "file:///home/yutaka/ダウンロード/pig-0.9.0/bin/ctu"

Output(s):
Successfully stored records in: "file:/tmp/temp389806136/tmp1944195780"

Job DAG:
job_local_0001


2011-09-26 21:49:28,544 [main] INFO org.apache.hadoop.metrics.jvm.JvmMetrics - Cannot initialize JVM Metrics with processName=JobTracker, sessionId= - already initialized
2011-09-26 21:49:28,550 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - Success!
2011-09-26 21:49:28,570 [main] INFO org.apache.hadoop.metrics.jvm.JvmMetrics - Cannot initialize JVM Metrics with processName=JobTracker, sessionId= - already initialized
2011-09-26 21:49:28,578 [main] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 1
2011-09-26 21:49:28,578 [main] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1
(Jack)
(Tony)
(Renee)
(Chloe)




GENERATEの後ろをname,ageにすると、
出力結果も、下記のようになりますね。

grunt> A = LOAD 'ctu' USING PigStorage(':') AS (name:chararray, age:int);
grunt> B = FOREACH A GENERATE name,age;
grunt> dump B;


(Jack,43)
(Tony,38)
(Renee,33)
(Chloe,34)


デフォルトのセパレータって何だ?
(念のため、確認する)

スペースの場合(' ') のように、
''で半角スペースを囲わないといけないですね。

デフォルトはスペースではないということか。


ひとまず、Pigは、終了。

変なところで、長引いてしまった。
(別件で、怒っていたちっ(怒った顔)のが原因だな(^ ^))


今日は、おしまい。







posted by アンドレアス at 15:55| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

Hadoopが大流行してもおかしくないのに、いまひとつ流行らないだろう理由は、統計・解析・数学・プログラムの4つのスキルを持つ人が限定されるからだろう。それは今後も続きそう。

(追記)早くもオライリーから、
「Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理」が発売されるようですね。

---------------------

日経コンピュータでも大規模データの話が
特集されていますが、
もちろん、Hadoopが取り上げられています。

Rもです。



1.大雑把なHadoopのキーワードとなる知識

MapReduceアルゴリズム,Java,Apache Hadoop,
Hadoop Core,HDFS(Hadoop Distributed Filesystem,分散ファイルシステム,Google File SystemのJava実装)

・HBase(分散データベース,Googleの「BigTable」のJava実装),

・関数
 Map
 Shuffle:Mapの出力をキー順にソートし、同じKeyを持つペアを束ねる
 Reduce:

 map関数、reduce関数に処理を記述


使用目的:1.ログデータ解析
     ・Webサイト品質向上資料
     ・運用予測データ
     2.
 3.バッチ処理


2.本当に必要な能力
 (サンプル例だけできれば良いわけではない、とすると)
・統計(クラスター分析なんか当然の知識)
・解析
・数学(微分・積分・行列)
・プログラム(Java。もしくは他の言語)


3.代替

・言語に関する処理(テキストマイニング)なら、Rがある。


◆感想
・Hadoopを扱える人間は、間違いなく少ない。
 今後も、増えにくい
 (理系離れの傾向と社会人になって数学を学び直す人の希少さから)

・形態素解析などは、すでに著名なライブラリもあり、
 「解析・分析」時に統計・数学の知識を適用し、
 時には、新しく方法を作成するくらいの能力が必要。


3.Hadoop準備・・・色々ありますが・・。

3-1.http://www.cloudera.com/
  これでいいんじゃなかったっけ?
  参照:Web+DB PRESS Vol.59 

3-1.VMware Player(仮想マシン Fedora7)を使用したHadoop単体動作例
http://www.atmarkit.co.jp/fjava/special/distributed03/distributed03_1.html



◎WEB+DB PRESS Vol.59:1554円
WEB+DB PRESS Vol.59 [大型本] / 竹内 真, 猪狩 丈治, 矢野 りん, 中島 拓, 伊藤 敬彦, 角田 直行, はまちや2, 柄沢 聡太郎, 田中 正裕, 梶原 大輔, 藤本 真樹, 増井 俊之, 加藤 幹生, 藤澤 瑞樹, 木村 俊也, 永井 幸輔, 中尾 光輝, 平田 雄一, 渡辺 智暁, 藤 吾郎 (著); 技術評論社 (刊)


◎Hadoop徹底入門:円
Hadoop徹底入門 [大型本] / 太田 一樹, 下垣 徹, 山下 真一, 猿田 浩輔, 藤井 達朗 (著); 濱野 賢一朗 (監修); 翔泳社 (刊)


◎Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理:2940円

早くもデザインパターン本が出てきましたね。
それくらい、短時間での解決要求が強いってことですね。


Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理 [大型本] / Jimmy Lin, Chris Dyer (著); 神林 飛志, 野村 直之 (監修); 玉川 竜司 (翻訳); オライリージャパン (刊)


◎Hadoop 第2版:5040円
Hadoop 第2版 [大型本] / Tom White (著); 玉川 竜司, 兼田 聖士 (翻訳); オライリージャパン (刊)



◎ビッグデータを征す クラウドの技術 Hadoop&NoSQL:

一番売れているのはこれですね。
書店へ行けばわかります。


NoSQLのCassandraの連載がまとまって掲載されている点と
Hadoopのサンプルなども比較的簡単に実行して確認できるので。
上記にあげた書籍だとページ数が多いので、
まずは、薄い書籍・雑誌を探すと、このアスキーの雑誌に
到達するみたいです(^^)
ビッグデータを征す クラウドの技術 Hadoop&NoSQL [大型本] / ASCII.technologies集部 (編集); アスキー・メディアワークス (刊)
posted by アンドレアス at 12:29| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年09月23日

Hadoopテキストマイニング、MapReduceとカイ二乗検定と共起分析

「Web+DB PRESS Vol.59 P91〜P122 特集3[実践]大規模データ分析 蓄積した情報から、隠れた価値を見つけ出せ」より。


第二章 テキストマイニング
前半と後半ですが、特に後半の話が、興味深い内容が満載です。
Hadoopの使い方も、です。

頻度分析よりも共起分析の方が多くのメモリを消費するので、
実装では、2回のMapReduceに分けて、うんぬんかんぬん・・・など。

Mixiの方の記載であり、非常に興味深いです。

既に、形態素解析などをやったことがある人でも
充分学べる内容が書かれています。



■Web+DB PRESS Vol.59:1554円
WEB+DB PRESS Vol.59 [大型本] / 竹内 真, 猪狩 丈治, 矢野 りん, 中島 拓, 伊藤 敬彦, 角田 直行, はまちや2, 柄沢 聡太郎, 田中 正裕, 梶原 大輔, 藤本 真樹, 増井 俊之, 加藤 幹生, 藤澤 瑞樹, 木村 俊也, 永井 幸輔, 中尾 光輝, 平田 雄一, 渡辺 智暁, 藤 吾郎 (著); 技術評論社 (刊)



◆WEB+DB PRESS 総集編 [Vol.1~60] :2,699円
10月15日発売。めちゃくちゃ、コストパフォーマンスが高い!
WEB+DB PRESS 総集編 [Vol.1〜60] [大型本] / WEB+DB PRES...
posted by アンドレアス at 15:20| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年09月16日

ど、どんだけ、すごいねん、ザッカーバーグ!Facebookの200万人を2人で管理していたのか。

http://www.publickey1.jp/blog/09/facebook8php.html

2005年に会員が約200万人の時代
社内のエンジニアは、わずか2人。

その1人は創業者のMark Zuckerberg。


ど、どんだけ、すごいねん、ザッカーバーグ!


◎スマートにプログラミングfacebookアプリ開発:2730円
スマートにプログラミングfacebookアプリ開発 [大型本] / テクノロジックアート (著); 永田 渉 (監修); リックテレコム (刊)
posted by アンドレアス at 01:24| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年09月09日

(今月の自由研究)Apache MahoutとCassandraと中国語


●今月の自由研究項目

・Apache Mahout・・・Hadoopも一緒に。

・Cassandra・・・ノータッチだったので、タッチする

・中国語・・・急速な語彙力アップの追求


◎Hadoop 第2版:5040円

Hadoop 第2版 [大型本] / Tom White (著); 玉川 竜司, 兼田 聖士 (翻訳); オライリージャパン (刊)


◎Hadoop徹底入門:3990円
Hadoop徹底入門 [大型本] / 太田 一樹, 下垣 徹, 山下 真一, 猿田 浩輔, 藤井 達朗 (著); 濱野 賢一朗 (監修); 翔泳社 (刊)


◎フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで:3570円

数年前、書店で見つけて、内容にビビッた書籍です。
レビューを見れば、わかりますが、評価が非常に高いです。
フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで [単行本(ソフトカバー)] / 荒木 雅弘 (著); 森北出版 (刊)




◎はじめての機械学習:2730円
はじめての機械学習


◎:2940円
レビューにも書かれているように、人口無能の本です。

はじめてのAIプログラミング―C言語で作る人工知能と人工無能 [単行本] / 小高 知宏 (著); オーム社 (刊)


◎恋するプログラム―Rubyでつくる人工無脳:円
評価が高い人工無脳本です。
Rubyを学ぶ本として評価している人もいます。

恋するプログラム―Rubyでつくる人工無脳 [単行本(ソフトカバー)] / 秋山 智俊 (著); 毎日コミュニケーションズ (刊)


posted by アンドレアス at 07:18| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年09月07日

さすが「さくらネット」は、アマゾンへ宣戦布告してきましたね。頑張れ!「さくらネット」

さくらのクラウド、Amazon EC2の半額以下で11月開始へ
http://www.atmarkit.co.jp/news/201109/06/sakura.html


以前SOFTWARE DESIGNかWEB+DB PRESSで
コメントされていたように、KVMで独自開発
とあるように、
さりげなく書いていますが、サービス展開にあたって、
自社で「独自開発」できるところだけが
生き残れるんだと思います。
(もちろん、外部に開発依頼もしていると思いますが)


さくらは、誰が見ても分かるレベルでの「チャレンジ」を
行いましたが、され、他のところは?(^^)


みてわかるクラウドマガジンvol.3 (日経BPパソコンベストムック) [大型本] / 日経Linux (編集); 日経BP社 (刊)

「みてわかるクラウド vol.3」を読んで、
どこが生き残るか、自分で判断してみるのは、
良いトレーニングになると思いますよ。

「何が、勝ち残るために、必要なのかと」



社内に人がいなくて、
外部から「そんな人、いけねーよ」と罵られるような
スキルの人を求めている企業、いまだに多いですよね(^^)。




案件募集などのRequired(必要なスキル)の箇所を見ていると、
「あー、ここのクラウドは、失敗するなー」ということが
手に取るようにわかります(^^)。



皆さんも、遊び気分で
「クラウド、生き残るのは、どこか?その根拠は?」
と考えてみると、面白いと思います。



みてわかるクラウドマガジンvol.1 (日経BPパソコンベストムック) [大型本] / 日経BP出版センター (刊)



みてわかるクラウドマガジンvol.2 (日経BPパソコンベストムック) [大型本] / 日経Linux (編集); 日経BP社 (刊)



追記)うーーん、さすがに、ライブマイグレーションまでは、
   まだ、開発中みたいですね。
   ライブマイグレーションだけなら、できるんでしょうけど、
   製品提供のオーダー(発注)の仕組みと連動させつつ、
   社内のネットワークでOpenFlowなどを使いつつ、展開できるように
   するんでしょうけど。

「別物理筺体への移動も可能にする」完全自動化は、
考えるだけでも、頭が飽和しますね(^^)。



   
posted by アンドレアス at 11:10| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年09月02日

Hadoopの準備とApache Solr分散検索の準備とUbuntuは一旦削除するなど・・・色々やることがあり。

日本、勝ってよかったです。

それだけ。

清武は、また結果を残しているので、
ワールドカップメンバーに残りそうな勢いを感じます。


さて、TOEICも近いため、

というか、

もう10日きっているんじゃない?


ガーン!



明日から、禁アルコールで
英語づけになります。


1日8時間レベルで、英語付けにしないと、
試験受けるに値するレベルに達しないな、きっと。



TOEICが終わるまで、10日発売のUnity本は、
買わないようにします!


絶対!


※ちなみに、今月9月にUnity本が2冊発売になるようです。
 間違いなく、ゲーム開発者必須ツールになります。



◎Unityによる3Dゲーム開発入門 ―iPhone/Android/Webで実践ゲームプログラミング:円
Unityによる3Dゲーム開発入門 ―iPhone/Android/Webで実践ゲームプログラミング [大型本] / 宮川 義之, 武藤 太輔 (著); オライリージャパン (刊)



◎Unityゲーム開発:円
Unityゲーム開発 [大型本] / ミッシェル・メナード (著); 大西 康満 他 (監修)...
posted by アンドレアス at 22:23| Comment(1) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年07月26日

オライリーより、Hadoop第二版が発売されました。昨日アップするのを忘れていました

昨日、書店で見かけたのを忘れていました。

日本版は、最後に、NTTデータの
「NTTデータの実証事業におけるHadoop活用のポイント」が付録についています。


・Hadoopの基礎から応用まで理解できる

Pig、HBase、Hive、Sqoop、Avro等
 サブプロジェクトやセキュリティに関して大幅に加筆されて、
 より実務に対応できる内容になった

・Hadoop 0.1系に加え、0.2系に関する情報も併記。



◎Hadoop 第2版:5040円
Hadoop 第2版 [大型本] / Tom White (著); 玉川 竜司, 兼田 聖士 (翻訳); オライリージャパン (刊)


◎Hadoop徹底入門:3990円

Hadoop徹底入門 [大型本] / 太田 一樹, 下垣 徹, 山下 真一, 猿田 浩輔, 藤井 達朗 (著); 濱野 賢一朗 (監修); 翔泳社 (刊)
posted by アンドレアス at 00:05| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年02月28日

(追加修正)「大規模サービス技術入門」を熟速読。ベイジアンフィルタ、機械学習と大規模データなど

読むの、速いんです、私。
(速読とかやっていなくて、良く本を読む人って、
 勝手に読むのが速くなったって人、多いですよね。
 あれ、です。)


「大規模サービス技術入門」P153

「やはり計測や見積もりが重要」

◆[Web開発者のための]大規模サービス技術入門 ―データ構造、メモリ、OS、DB、サーバ/インフラ:2709円
[Web開発者のための]大規模サービス技術入門 ―データ構造、メモリ、OS、DB、サーバ/インフラ (WEB+DB PRESS plusシリーズ) [単行本(ソフトカバー)] / 伊藤 直也, 田中 慎司 (著); 技術評論社 (刊)


さて、P164〜付近を再読しています。

・ベイジアンフィルタ
・機械学習と大規模データ
・大量のデータと応用数学
・ナイーブベイズ
・ベイズの定理
・Apache Thrift
・Trie
・AC法
・Apache Lucene


さっき、「ベイジアン理論」の本などを見ていたんですが、
これで何か作ろうと。

やはり自分で作らないと、学習にならない(身につかない)ですからね。

「車輪の再発明」だったとしても、です。


◆道具としてのベイズ統計:2520円
道具としてのベイズ統計 [単行本(ソフトカバー)] / 涌井 良幸 (著); 日本実業出版社 (刊)

posted by アンドレアス at 21:04| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年02月20日

(追加しました)こっそり始めるNoSQL(MongoDB編)・・・オライリーの英語書籍の数の多さが、MongoDBの人気を物語っている気がする

昨日、できなかったMongoDBをやります。




先にご飯を食べなきゃ・・・・。

しばし休憩・・・。(^ ^)。

今日は、早めに寝ます。

# yum -y install rlwrap

$ tar xvzf mongodb-linux-i686-1.6.5.tgz
$ cd mongodb-linux-i686-1.6.5/bin/


# mkdir /var/db/mongo

# ./mongod --dbpath=/var/db/mongo
Mon Feb 21 06:59:32 MongoDB starting : pid=3005 port=27017 dbpath=/var/db/mongo 32-bit

** NOTE: when using MongoDB 32 bit, you are limited to about 2 gigabytes of data
** see http://blog.mongodb.org/post/137788967/32-bit-limitations

Mon Feb 21 06:59:32 db version v1.6.5, pdfile version 4.5
Mon Feb 21 06:59:32 git version: 0eb017e9b2828155a67c5612183337b89e12e291
Mon Feb 21 06:59:32 sys info: Linux domU-12-31-39-01-70-B4 2.6.21.7-2.fc8xen #1 SMP Fri Feb 15 12:39:36 EST 2008 i686 BOOST_LIB_VERSION=1_37
Mon Feb 21 06:59:32 [initandlisten] waiting for connections on port 27017
Mon Feb 21 06:59:32 [websvr] web admin interface listening on port 28017



●ユーザーで、解凍したディレクトリのbinディレクトリで、
/home/jack/ダウンロード/mongodb-linux-i686-1.6.5/bin

$ ./mongo
MongoDB shell version: 1.6.5
connecting to: test
>


行編集機能を持つrlwrapを使う場合、

$ rlwrap mongo
MongoDB shell version: 1.6.4
connecting to: test
>


*MySQL風なMongoDB
これが、人気の秘密か・・。

> show dbs
admin
local
> use local
switched to db local

> use cloud_mag
switched to db cloud_mag
> show dbs
admin
local
ここに出てほしいんだが…出てない


> db
cloud_mag
>

> show collections

つづく・・・・・・・・・・・がく〜(落胆した顔)


日本語版は出る気配を見せない、
オライリーのNoSQL本ですが、
既に英語版は、

・MongoDB

・Cassandra

Cassandra: The Definitive Guide [ペーパーバック] / Eben Hewitt (著); Oreilly & Associates Inc (刊)
・CouchDB
CouchDB: The Definitive Guide [ペーパーバック] / J. Chris Anderson, Jan Lehnardt, Noah Slater (著); Oreilly & Associates Inc (刊)
という具合に、続々と発売されています。

その中でも、MongoDBが、関連書籍含めて、
人気のようですね。

ほら!3冊も出てる!


◆MongoDB: The Definitive Guide
MongoDB: The Definitive Guide [ペーパーバック] / Kristina Chodorow, Michael Dirolf (著); Oreilly & Associates Inc (刊)

◆Document Design for Mongodb
Document Design for Mongodb [ペーパーバック] / Jeremy Mcanally (著); Oreilly & Associates Inc (刊)

◆Scaling Mongodb
Scaling Mongodb [ペーパーバック] / Kristina Chodorow (著); Oreilly & Associates Inc (刊)



このレベルの英語なら、読めるのが当然という時代ですので、
円も高いことだし、アマゾンで購入をオススメします。


*どうしても、日本語で、かつ、ちょっとだけ「カジリ」たい人は、
 やはり、これで体験しておけば良いかな。
 ◆みてわかるクラウドマガジンvol.1
みてわかるクラウドマガジンvol.1 (日経BPパソコンベストムック) [大型本] / 日経BP出版センター (刊)




レビューでの評価も高いし。


*おっと、CouchDBにも、Scaling出てますね。

 Scaling Couchdb [ペーパーバック] / Bradley Holt (著); Oreilly & Associates Inc (刊)

Webアクセスすると、ログなどの情報も一覧で見ることが可能です。

http://127.0.0.1:28017/


> for(var i=0;i<1000000;i++){
... db.bench.save({ x:4,j:i
... });
... }

> db.bench.findOne({j:999999})
> db.bench.findOne({j:999998})


> db.bench.ensureIndex({j:1},{unique:true})
> db.bench.findOne({j:999999})
> db.bench.findOne({j:999998})



> db.bench.find({x:4})
> db.bench.find().count()
> var c = db.bench.find()
> c.skip(10).limit(10).sort({j:-1})


posted by アンドレアス at 21:35| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年02月18日

NoSQLでは、MongoDBが人気あるようですね。オライリーの英語書籍の数の多さが物語ってます。

日本語版は出る気配を見せない、
オライリーのNoSQL本ですが、
既に英語版は、

・MongoDB

・Cassandra

Cassandra: The Definitive Guide [ペーパーバック] / Eben Hewitt (著); Oreilly & Associates Inc (刊)
・CouchDB
CouchDB: The Definitive Guide [ペーパーバック] / J. Chris Anderson, Jan Lehnardt, Noah Slater (著); Oreilly & Associates Inc (刊)
という具合に、続々と発売されています。

その中でも、MongoDBが、関連書籍含めて、
人気のようですね。

ほら!3冊も出てる!


◆MongoDB: The Definitive Guide
MongoDB: The Definitive Guide [ペーパーバック] / Kristina Chodorow, Michael Dirolf (著); Oreilly & Associates Inc (刊)

◆Document Design for Mongodb
Document Design for Mongodb [ペーパーバック] / Jeremy Mcanally (著); Oreilly & Associates Inc (刊)

◆Scaling Mongodb
Scaling Mongodb [ペーパーバック] / Kristina Chodorow (著); Oreilly & Associates Inc (刊)



このレベルの英語なら、読めるのが当然という時代ですので、
円も高いことだし、アマゾンで購入をオススメします。


*どうしても、日本語で、かつ、ちょっとだけ「カジリ」たい人は、
 やはり、これで体験しておけば良いかな。
 ◆みてわかるクラウドマガジンvol.1
みてわかるクラウドマガジンvol.1 (日経BPパソコンベストムック) [大型本] / 日経BP出版センター (刊)




レビューでの評価も高いし。


*おっと、CouchDBにも、Scaling出てますね。

 Scaling Couchdb [ペーパーバック] / Bradley Holt (著); Oreilly & Associates Inc (刊)
posted by アンドレアス at 23:16| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

「クラウド時代の製品・サービス選び Vol.1」がアスキーから発売。驚いたのは、CiscoのUCSを導入している近畿大学の記事(関西の私立大学です)

今日発売ですね。

書店によっては、置く位置が悪いところもあり、
そういう場合、売れてないようです。

置き場所、大事ですよ。
今、盛んにクラウド、クラウドと言われているのに、
これを見えにくい棚に並べると、売れるものも
売れなくなるぞ。きっと。(To 某大書店) わーい(嬉しい顔)


◆「クラウド時代の製品・サービス選び Vol.1」
  定価:1,280円 (本体1,219円)


クラウド時代の製品・サービス選び(vol.1)


※まだ、アマゾンではDBに登録されていないようで、
 検索しても出てきません。




●目次です。

ITリソースを低価格に借りる
特集1●IaaS 導入のベストチョイス
概論/NTTコミュニケーションズ/IIJ/ソフトバンクテレコム/KDDI/NTTPCコミュニケーションズ/富士通/フリービット/ IDC フロンティア/ビットアイル/ベライゾンビジネス/ニフティ

特集2●デスクトップ仮想化のすべて
・デスクトップ仮想化を支える技術
・ネットブート型も網羅するシトリックス
・買収で環境を整えたマイクロソフトのVDI
・デスクトップ仮想化の課題の1つはウイルス対策
・仮想化技術を核にデスクトップ仮想化を広げるVMware

特集3●知っておきたいクラウドのリスクとセキュリティ
・クラウド導入の懸念事項「セキュリティ」の問題はどこ?
・エンドユーザーから見たクラウドサービスの不安
・自社設備でOK ?クラウドを使ううえでのリスク管理
・SaaS 利用時には要注意! Web アプリのセキュリティ
・クラウドを支える「サーバー仮想化」のセキュリティとは?

特集4●失敗しないサーバー選びのポイント
・サーバーのアーキテクチャ
・仮想化技術から見るサーバー選び
・リソースプール型システムの動向

仮想化&クラウド時代の最新大学事例


関西の国立大学と私立大学の例が出ていましたが、
CiscoのUCSは、私立大学でK大学(確か、プロ野球で、今は、日ハムの二岡選手の出身大学)で導入されたようです。


*Y氏が言われているように、確かに、CiscoのUCS導入は、
 誰もがなぜ?と思いつつ、VMwareもHAで、導入しているのですね。

 しかし、UCS導入で目立ったことは、大学の宣伝にもなるので、
 目的以上の効果があったのでは、と思いました。





IBM CloudBurst徹底解剖

最新製品レビュー
・ヤマハ「NVR500」
・フォーティネット「FortiGate-60C」
・ALSI「InterSafe SecureDevice」


みてわかるクラウドマガジンvol.1 (日経BPパソコンベストムック) [大型本] / 日経BP出版センター (刊)
みてわかるクラウドマガジンvol.2 (日経BPパソコンベストムック) [大型本] / 日経Linux (編集); 日経BP社 (刊)
posted by アンドレアス at 23:06| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

予定と違った本を買った。いつものことだが・・。「クラウド時代の製品・サービス選び Vol.1」がアスキーから発売。驚いたのは、CiscoのUCSを導入しているK大学の記事(関西の某私立大学)

今日発売ですね。
SOFTWARE DESIGNの横に置かれてました。


◆「クラウド時代の製品・サービス選び Vol.1」
  定価:1,280円 (本体1,219円)


クラウド時代の製品・サービス選び(vol.1)


※まだ、アマゾンではDBに登録されていないようで、
 検索しても出てきません。




●目次です。

ITリソースを低価格に借りる
特集1●IaaS 導入のベストチョイス
概論/NTTコミュニケーションズ/IIJ/ソフトバンクテレコム/KDDI/NTTPCコミュニケーションズ/富士通/フリービット/ IDC フロンティア/ビットアイル/ベライゾンビジネス/ニフティ

特集2●デスクトップ仮想化のすべて
・デスクトップ仮想化を支える技術
・ネットブート型も網羅するシトリックス
・買収で環境を整えたマイクロソフトのVDI
・デスクトップ仮想化の課題の1つはウイルス対策
・仮想化技術を核にデスクトップ仮想化を広げるVMware

特集3●知っておきたいクラウドのリスクとセキュリティ
・クラウド導入の懸念事項「セキュリティ」の問題はどこ?
・エンドユーザーから見たクラウドサービスの不安
・自社設備でOK ?クラウドを使ううえでのリスク管理
・SaaS 利用時には要注意! Web アプリのセキュリティ
・クラウドを支える「サーバー仮想化」のセキュリティとは?

特集4●失敗しないサーバー選びのポイント
・サーバーのアーキテクチャ
・仮想化技術から見るサーバー選び
・リソースプール型システムの動向

仮想化&クラウド時代の最新大学事例


関西の国立大学と私立大学の例が出ていましたが、
CiscoのUCSは、私立大学でK大学(確か、プロ野球で、今は、日ハムの二岡選手の出身大学)で導入されたようです。





IBM CloudBurst徹底解剖

最新製品レビュー
・ヤマハ「NVR500」
・フォーティネット「FortiGate-60C」
・ALSI「InterSafe SecureDevice」


みてわかるクラウドマガジンvol.1 (日経BPパソコンベストムック) [大型本] / 日経BP出版センター (刊)
みてわかるクラウドマガジンvol.2 (日経BPパソコンベストムック) [大型本] / 日経Linux (編集); 日経BP社 (刊)

posted by アンドレアス at 14:40| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年02月12日

HAやFT機能で、重要な、「スロットサイズ、スロット数」の概念と意味は、 「VMware vSphereエンタープライズ・インテグレーション」のP228

結構、トラブルになりがちな、スロット数・スロットサイズ。

「VMware vSphereエンタープライズ・インテグレーション」のP228クラスタ設計にも出ていますが、単純なクラスタ登録台数などは、誰でも把握し理解できるわけですが、
スロット数を計算しているエンジニアは多くないと思います。

そもそも、「それ何?」というエンジニアは大半かもしれません。

VMWareの講習でも、やってないらしいので。(人聞きです)
(注)クラスタ構成を組む、などをやっていないのではなく、
  どういうケースで、クラスタとかFTを構成する場合、
  スロット数が足りなくなるケースが発生するとか、
  それは、どういう時か、など。

軽い検証を行っている際には、誰も気づかず、
実務に近づくにつれて、発覚しがちです。



VMware vSphereエンタープライズ・インテグレーション [大型本] / 伊藤忠テクノソリューションズ (著); 翔泳社 (刊)



はまらないように注意しておきましょう。
下手すれば、予定していたHAやFTができないという事態につながるケースも
出てきます。



Enabling Fault Tolerance on a powered on virtual machine fails with the error: Not enough resources
http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1012602




/var/log/vmware/vpx/vpxa.logともありますね。
/opt/vmware/aam folderとか。





Best practices and advanced features for VMware High Availability
http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1002080


[重要] vSphere Availability Guide
http://www.vmware.com/pdf/vsphere4/r41/vsp_41_availability.pdf



やはり日本語版には、ないような(?)資料も多いですね。

[重要]Automating High Availability (HA) Services with VMware HA
http://www.vmware.com/pdf/vmware_ha_wp.pdf


◆VMware徹底入門 第2版VMware徹底入門 第2版 [大型本] / ヴイエムウェア株式会社 (著); 翔泳社 (刊)
posted by アンドレアス at 20:32| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

G-CLOUD magazineの2冊目が出ました。皆、よく中身を見てますね。2は1より中身が充実したので、1より売れてました(^^)

ちょうど、3連休で、目だった雑誌の発売もないはずなのですが、
アルゴリズムは数学の本でも買おうかと思い、
書店巡回の旅へ。

意外や意外!


G-CLOUD magazineの2冊目が出てました。



それも、山積みが、圧倒いう間になくなって、
あと3冊です、というのが、すぐにわかる状態。




皆、よく中身を見てますね。(苦笑い)

2は1より中身が充実しているのが、すぐにわかりました。


だから、1より売れてました(^^)


1は、イマイチでしたよね(^^)


だから、頑張ったのかもしれません(^^)


目次です。
特集1
AWSガイド2011
進化を遂げるAmazon Web Servicesをフォローせよ
1章:Amazon Web Servicesの今 20112章:RDSを使ってクラウドデータベースを構築しよう
3章:AWSのキューイングサービス─Amazon SQS
コラム:アマゾンクラウド(Amazon Web Services)はどこが違うのか?4章:EMRで大規模データ処理─巨大ログ解析システムを作る
5章:実践! AWSで構築するWebアプリケーション─ELB+EC2+RDS
Appendix:PHPエンジニアのためのAWSマニュアル

特集2
Windows Azure最前線
1章:Windows Azure Platformの最新動向
2章:Windows Azure上にFacebookアプリを開発しよう!
3章:SQL ServerからSQL Azureへのマイグレーション実践
4章:Windows Phone 7とWindows Azureで世界に挑戦してみよう

特集3
今すぐ使えるGoogle App Engine
1章:いまさら聞けない!「Google App Engine」とは?
2章:BigtableとDatastoreで知るApp Engine流NoSQL開発術
3章:“リアルタイムWeb”を実現するApp Engine最新機能「Channel API」と「Matcher A」とは
特集4
EucalyptusでHadoopのクラウドサービスを実現
一般記事
企業システムにおける大規模データの活用とHadoopの動向〜ネット世界の「雲」をつかめ!
クラウドの成分分析と導入メリット
特別小冊子
クラウドコンピューティングでのライセンス管理

◆G-CLOUD Magazine 2011(こっちが今日売れていた方)G-CLOUD Magazine 2011 [大型本] / web Site Expert 編集部 (編集); 技術評論社 (刊)


◆G-CLOUD Magazine <--こっちは創刊号の方です。
G-CLOUD Magazine [大型本] / G-CLOUD Magazine 編集部 (編集); 技術評論社 (刊)
posted by アンドレアス at 20:17| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年02月11日

Hadoopを始める人は、オライリーのHadoop本か、あるは「Hadoop徹底入門」で始めるのが普通。研修テキストにも使える

Hadoop本、2冊目出ましたので、さっそく・・。

目次は、抜粋しました。



今から、Hadoopを始める人は、下記を見て関心があれば、「自分でもできそうであれば」始めてみると、今なら、まだまだHadoopのEarly Bird(すばやく飛びつく人)だと思います。


Hadoop徹底入門 [大型本] / 太田 一樹, 下垣 徹, 山下 真一, 猿田 浩輔, 藤井 達朗 (著); 濱野 賢一朗 (監修); 翔泳社 (刊)



2 Hadoop の導入

  2.1 Hadoop インストールの準備
     2.1.1 Hadoopの動作モード
     2.1.2 利用するHadoopのパッケージ
     2.1.3 インストール前に用意するもの
  2.2 コミュニティ版Hadoop のインストール
     2.2.1 パッケージの入手
     2.2.2 インストール手順
  2.3 コミュニティ版Hadoop の起動と停止
  2.4 MapReduce 実行による動作確認
     2.4.1 サンプルMapReduceアプリケーション
     2.4.2 ローカルモードでの実行
     2.4.3 擬似分散/完全分散モードでの実行
  2.5 Cloudera’s Distribution for Hadoop(CDH)の導入
     2.5.1 Cloudera 社とCDH
     2.5.2 CDH を利用したrpmのインストール
     2.5.3 インストール先の確認
     2.5.4 完全分散モードでのインストール



Hadoop [大型本] / Tom White (著); 玉川 竜司, 兼田 聖士 (翻訳); オライリージャパン (刊)


2章 MapReduce
2.1 気象情報データセット
2.1.1 データフォーマット
2.2 Unixのツールによるデータ分析
2.3 Hadoopによるデータの分析
2.3.1 mapとreduce
2.3.2 Java MapReduce
2.4 スケールアウト
2.4.1 データフロー
2.4.2 集約関数
2.4.3 分散MapReduceジョブの実行
2.5 Hadoopストリーミング
2.5.1 Ruby
2.5.2 Python
2.6 Hadoop Pipes
2.6.1 コンパイルと実行

索引

コラム目次
「Hadoop」という名前の由来
Yahoo!でのHadoop
なぜHDFSのブロックはそれほど大きいのか?
HDFSにおけるファイルパーミッション
ネットワークトポロジとHadoop
レプリカの配置
どの圧縮フォーマットを使えばよいのか?
なぜJava Object Serializationを使わないのか?
ユーザー識別情報の設定
設定できるプロパティ
ジョブ、タスク、タスク試行ID
ジョブヒストリ
Hadoopのユーザーログ
MapReduceで進行状況を知らせるのは?
reducer数の選択
入力スプリットとHDFSブロックの関係
MultipleOutputFormatとMultipleOutputsとはどう違う?
ソート順序の制御
RAIDを使わないのはなぜ?
EC2のネットワークトポロジ
メトリクスとカウンターの違いは?
バージョン間の互換性
スキャナ
同期と非同期、どちらのAPIを使うべき?
ZooKeeperはPaxosを使っているのか?
posted by アンドレアス at 10:58| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年01月29日

土日も売れています「Hadoop徹底入門」。そして、ここでも、登場しています、Kickstart

ここでも、出てきています、キックスタート。

なので、2011年中に、必須知識になるでしょうね、
kickstartは。




◆「Hadoop徹底入門」
Hadoop徹底入門 [大型本] / 太田 一樹, 下垣 徹, 山下 真一, 猿田 浩輔, 藤井 達朗 (著); 濱野 賢一朗 (監修); 翔泳社 (刊)






7 環境構築の効率化

  7.1 Hadoop 環境の効率的な構築
     7.1.1 Hadoop環境の自動構築の準備
  7.2 kickstart によるHadoop 環境構築
     7.2.1 PXE ブート
     7.2.2 kickstart
     7.2.3 サーバーの設定と資材の配置
     7.2.4 PXE ブート関連の設定ファイルの配置
     7.2.5 kickstart の設定ファイルの配置
     7.2.6 OS の自動インストール
  7.3 Puppet によるHadoop 環境設定
     7.3.1 Puppet
     7.3.2 マニフェスト
     7.3.3 Puppet マスターのインストール
     7.3.4 Parallel SSH のインストール




◆Hadoop
Hadoop [大型本] / Tom White (著); 玉川 竜司, 兼田 聖士 (翻訳); オライリージャパン (刊)



2章 MapReduce
2.1 気象情報データセット
2.1.1 データフォーマット
2.2 Unixのツールによるデータ分析
2.3 Hadoopによるデータの分析

2.3.1 mapとreduce
2.3.2 Java MapReduce
2.4 スケールアウト
2.4.1 データフロー
2.4.2 集約関数
2.4.3 分散MapReduceジョブの実行
2.5 Hadoopストリーミング
2.5.1 Ruby
2.5.2 Python

2.6 Hadoop Pipes
2.6.1 コンパイルと実行
posted by アンドレアス at 23:07| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

今から、Hadoopを始める人は・・・オライリーのHadoop本か、あるは「Hadoop徹底入門」で始めれば、今なら・・

Hadoop本、2冊目出ましたので、さっそく・・。

目次は、抜粋しました。



今から、Hadoopを始める人は、下記を見て関心があれば、「自分でもできそうであれば」始めてみると、今なら、まだまだHadoopのEarly Bird(すばやく飛びつく人)だと思います。


Hadoop徹底入門 [大型本] / 太田 一樹, 下垣 徹, 山下 真一, 猿田 浩輔, 藤井 達朗 (著); 濱野 賢一朗 (監修); 翔泳社 (刊)



2 Hadoop の導入

  2.1 Hadoop インストールの準備
     2.1.1 Hadoopの動作モード
     2.1.2 利用するHadoopのパッケージ
     2.1.3 インストール前に用意するもの
  2.2 コミュニティ版Hadoop のインストール
     2.2.1 パッケージの入手
     2.2.2 インストール手順
  2.3 コミュニティ版Hadoop の起動と停止
  2.4 MapReduce 実行による動作確認
     2.4.1 サンプルMapReduceアプリケーション
     2.4.2 ローカルモードでの実行
     2.4.3 擬似分散/完全分散モードでの実行
  2.5 Cloudera’s Distribution for Hadoop(CDH)の導入
     2.5.1 Cloudera 社とCDH
     2.5.2 CDH を利用したrpmのインストール
     2.5.3 インストール先の確認
     2.5.4 完全分散モードでのインストール



Hadoop [大型本] / Tom White (著); 玉川 竜司, 兼田 聖士 (翻訳); オライリージャパン (刊)


2章 MapReduce
2.1 気象情報データセット
2.1.1 データフォーマット
2.2 Unixのツールによるデータ分析
2.3 Hadoopによるデータの分析
2.3.1 mapとreduce
2.3.2 Java MapReduce
2.4 スケールアウト
2.4.1 データフロー
2.4.2 集約関数
2.4.3 分散MapReduceジョブの実行
2.5 Hadoopストリーミング
2.5.1 Ruby
2.5.2 Python
2.6 Hadoop Pipes
2.6.1 コンパイルと実行

索引

コラム目次
「Hadoop」という名前の由来
Yahoo!でのHadoop
なぜHDFSのブロックはそれほど大きいのか?
HDFSにおけるファイルパーミッション
ネットワークトポロジとHadoop
レプリカの配置
どの圧縮フォーマットを使えばよいのか?
なぜJava Object Serializationを使わないのか?
ユーザー識別情報の設定
設定できるプロパティ
ジョブ、タスク、タスク試行ID
ジョブヒストリ
Hadoopのユーザーログ
MapReduceで進行状況を知らせるのは?
reducer数の選択
入力スプリットとHDFSブロックの関係
MultipleOutputFormatとMultipleOutputsとはどう違う?
ソート順序の制御
RAIDを使わないのはなぜ?
EC2のネットワークトポロジ
メトリクスとカウンターの違いは?
バージョン間の互換性
スキャナ
同期と非同期、どちらのAPIを使うべき?
ZooKeeperはPaxosを使っているのか?
posted by アンドレアス at 13:03| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年01月28日

Hadoop本、2冊目出ましたので、さっそく・・

大きい書店は、早いですね。

Hadoop徹底入門 [大型本] / 太田 一樹, 下垣 徹, 山下 真一, 猿田 浩輔, 藤井 達朗 (著); 濱野 賢一朗 (監修); 翔泳社 (刊)

はじめに

1 Hadoop ってなんだろう?

  1.1 Hadoop とは
  1.2 Hadoop の概要
     1.2.1 Hadoopって何?
     1.2.2 用途
     1.2.3 Hadoopの誕生
     1.2.4 大規模なデータ処理における課題と対応
  1.3 Hadoop の適用領域
     1.3.1 万能型のプロダクトではない
     1.3.2 DBMS とHadoopの比較
     1.3.3 RDBMS とHadoopの連携
  1.4 Hadoop の構成と処理概要
     1.4.1 ApacheのHadoopプロジェクト
     1.4.2 サーバー構成
     1.4.3 HDFS:Hadoop分散ファイルシステム
     1.4.4 Hadoop MapReduceフレームワーク
  1.5 Hadoop の適用事例
     1.5.1 Hadoopで変わるシチュエーション
     1.5.2 Hadoopアプリケーションの利用事例

2 Hadoop の導入

  2.1 Hadoop インストールの準備
     2.1.1 Hadoopの動作モード
     2.1.2 利用するHadoopのパッケージ
     2.1.3 インストール前に用意するもの
  2.2 コミュニティ版Hadoop のインストール
     2.2.1 パッケージの入手
     2.2.2 インストール手順
  2.3 コミュニティ版Hadoop の起動と停止
  2.4 MapReduce 実行による動作確認
     2.4.1 サンプルMapReduceアプリケーション
     2.4.2 ローカルモードでの実行
     2.4.3 擬似分散/完全分散モードでの実行
  2.5 Cloudera’s Distribution for Hadoop(CDH)の導入
     2.5.1 Cloudera 社とCDH
     2.5.2 CDH を利用したrpmのインストール
     2.5.3 インストール先の確認
     2.5.4 完全分散モードでのインストール

3 Hadoop 分散ファイルシステムHDFS

  3.1 Hadoop におけるファイルシステム
  3.2 HDFS の仕組み
     3.2.1 HDFS のアーキテクチャ
     3.2.2 HDFS の利点
     3.2.3 ブロックとメタデータ
  3.3 HDFS のオペレーションョン
     3.3.1 ディレクトリ構成と設定ファイル
     3.3.2 ファイル/ディレクトリのパーミッション
     3.3.3 起動と停止
  3.4 ファイル操作
     3.4.1 hdfs コマンド
     3.4.2 dfs サブコマンド
  3.5 ログ管理
     3.5.1 ログの種類
     3.5.2 ログレベルの動的な変更
     3.5.3 状態確認とメンテナンス
  3.6 WebUI による管理
  3.7 ラックアウェアネスの設定方法
     3.7.1 クラスタ構成の認識
     3.7.2 スクリプトを記述する

4 Hadoop MapReduce フレームワーク

  4.1 MapReduce フレームワークの基礎知識
     4.1.1 Map 処理とReduce 処理
     4.1.2 ごく単純なMapreduce
     4.1.3 分散して処理する場合
  4.2 MapReduce フレームワークの構成
     4.2.1 MapReduceとHDFS
     4.2.2 MapReduceの特徴
  4.3 JobTracker の役割
     4.3.1 機能
     4.3.2 3 つの動作モード
     4.3.3 TaskTracker への処理割り当て
     4.3.4 MapReduceジョブ設定の確認
  4.4 TaskTracker の役割
     4.4.1 機能
  4.5 MapReduce フレームワークの連携動作/監視
     4.5.1 JobClient の役割
     4.5.2 死活監視とハートビート通信
     4.5.3 ジョブの優先度設定とスケジューラ
  4.6 MapReduce フレームワークのオペレーション
     4.6.1 分散環境での起動
     4.6.2 最低限必要な設定
     4.6.3 設定ファイルと起動スクリプト
     4.6.4 JobTracker の設定
     4.6.5 ジョブとタスク
     4.6.6 TaskTracker の脱退判断
     4.6.7 TaskTracker の設定
     4.6.8 MapReduceフレームワークの起動と停止
  4.7 コマンドラインベースのMapReduce 管理
     4.7.1 MapReduceジョブの管理
     4.7.2 MapReduce管理者用コマンド
     4.7.3 TaskTracker の追加
  4.8 WebUI による管理
     4.8.1 MapReduceジョブ可視化

5 MapReduce プログラミング入門

  5.1 MapReduce フレームワーク
  5.2 Java によるMapReduce プログラムの作成方法
     5.2.1 MapReduceプログラムで記述する内容
     5.2.2 MapReduceプログラムの入力と出力
     5.2.3 WordCount アプリケーションの作成
  5.3 ワードカウントサンプルアプリケーション
     5.3.1 プログラムの作成/コンパイル/実行
     5.3.2 WordCount.java 解説
  5.4 MapReduce プログラム実行全体の流れ
     5.4.1 InputSplits:入力データの分割単位
     5.4.2 InputFormat:入力データの分割
     5.4.3 Mapper:map 関数の実行
     5.4.4 Partitioner:中間データの行き先を決定
     5.4.5 Reducer:reduce関数の実行
     5.4.6 OuputFormat
  5.5 Hadoop I/O API
     5.5.1 シリアライズAPI(Writable)
     5.5.2 ファイル構造API(SequenceFile)
  5.6 Hadoop MapReduce フレームワークAPI
     5.6.1 設定API(Configuration)
     5.6.2 Mapper/Reducer
     5.6.3 入力フォーマット(InputFormat)
     5.6.4 出力フォーマット(OutputFormat)
     5.6.5 パーティショナー(Partitioner)
     5.6.6 カウンター(Counter)
     5.6.7 副次データの配布(DistributedCache)
  5.7 MapReduce プログラムのテスト/デバッグ手法
     5.7.1 MapReduceの作法に合わせた設計/記述
     5.7.2 MapReduceプログラムのUnit テスト
     5.7.3 MapReduceプログラムの動作環境設定
     5.7.4 MapReduceプログラムのデバッグ技法

6 SQL 的インターフェイスHive

  6.1 Hive 概略
     6.1.1 MapReduceの容易な活用
     6.1.2 Hive とは
  6.2 Hive とHadoop
     6.2.1 Hive とRDBMS の違い
     6.2.2 テーブルの格納方式
     6.2.3 MapReduceとHive
  6.3 HiveQL
     6.3.1 DDL
     6.3.2 データの格納
     6.3.3 SELECT 文
     6.3.4 コマンドライン/シェルからの実行
     6.3.5 EXPLAIN 文
     6.3.6 ユーザー定義関数
  6.4 インストール
     6.4.1 Hive の導入に必要なもの
     6.4.2 インストール手順
     6.4.3 Hive 動作確認
  6.5 Hive の設定
     6.5.1 metastore 管理設定
     6.5.2 データ保持方法
     6.5.3 ログの確認
     6.5.4 Hive でのチューニング

7 環境構築の効率化

  7.1 Hadoop 環境の効率的な構築
     7.1.1 Hadoop環境の自動構築の準備
  7.2 kickstart によるHadoop 環境構築
     7.2.1 PXE ブート
     7.2.2 kickstart
     7.2.3 サーバーの設定と資材の配置
     7.2.4 PXE ブート関連の設定ファイルの配置
     7.2.5 kickstart の設定ファイルの配置
     7.2.6 OS の自動インストール
  7.3 Puppet によるHadoop 環境設定
     7.3.1 Puppet
     7.3.2 マニフェスト
     7.3.3 Puppet マスターのインストール
     7.3.4 Parallel SSH のインストール

8 運用監視とシステムの可視化

  8.1 Hadoop クラスタの運用監視
  8.2 Hadoop で実現できる監視
     8.2.1 Hadoopのログ
     8.2.2 HadoopのWebUI
  8.3 Ganglia によるHadoop 環境の可視化
     8.3.1 Ganglia とは
     8.3.2 Ganglia によるHadoopクラスタの可視化

9 可用性の向上

  9.1 クラスタシステムの可用性
  9.2 スレーブノードの故障による影響
     9.2.1 DataNode の故障
     9.2.2 TaskTracker の故障
  9.3 マスターノードの故障による影響
     9.3.1 NameNode の故障
     9.3.2 JobTracker の故障
  9.4 HA クラスタによるマスターノードの冗長化
     9.4.1 Heartbeat とDRBD によるHA クラスタ
     9.4.2 DRBD のインストール/設定
     9.4.3 Heartbeat のインストール/設定
     9.4.4 HA クラスタの挙動確認
  9.5 HDFS メタデータのチェックポイントとバックアップ
     9.5.1 CheckpointNode
     9.5.2 BackupNode

10 性能向上のためのチューニング

  10.1 Map 処理とReduce 処理に関するチューニング
     10.1.1 アプリケーションのチューニングポイント
  10.2 MapReduce フレームワークのチューニング
     10.2.1 MapReduceジョブの動作に影響するHadoopの設定
     10.2.2 Map 処理でのフレームワークのチューニング
     10.2.3 Reduce 処理でのフレームワークのチューニング
  10.3 その他チューニング
     10.3.1 Java VM チューニング
     10.3.2 OS チューニング

11 Hadoop に関連するプロダクト

  11.1 分散型データベースHBase
     11.1.1 HBase とは?
     11.1.2 データモデル
     11.1.3 アーキテクチャ
     11.1.4 インストール方法
     11.1.5 HBase Shell
     11.1.6 MapReduceジョブからの使用
     11.1.7 HBase のテーブル設計
  11.2 Pig
     11.2.1 Pig とは
     11.2.2 Pig のインストール
     11.2.3 Pig で扱うデータ型
     11.2.4 Pig の処理でできること
     11.2.5 Pig のコマンド操作
     11.2.6 Pig で使用できるUDF
     11.2.7 Pig を使用する場合に確認すること
  11.3 Thrift
     11.3.1 なぜThrift が必要か?
     11.3.2 Thrift のサーバー/クライアント実装手順
     11.3.3 Thrift を用いたHDFS へのアクセス

索引
執筆者プロフィール
Hadoop [大型本] / Tom White (著); 玉川 竜司, 兼田 聖士 (翻訳); オライリージャパン (刊)

序文
訳者まえがき
はじめに
1章 Hadoop事始め
1.1 データ!
1.2 データの保管と分析
1.3 他のシステムとの比較
1.3.1 RDBMS
1.3.2 グリッドコンピューティング
1.3.3 ボランティアコンピューティング
1.4 Hadoopの歴史
1.5 Apache Hadoopプロジェクト
2章 MapReduce
2.1 気象情報データセット
2.1.1 データフォーマット
2.2 Unixのツールによるデータ分析
2.3 Hadoopによるデータの分析
2.3.1 mapとreduce
2.3.2 Java MapReduce
2.4 スケールアウト
2.4.1 データフロー
2.4.2 集約関数
2.4.3 分散MapReduceジョブの実行
2.5 Hadoopストリーミング
2.5.1 Ruby
2.5.2 Python
2.6 Hadoop Pipes
2.6.1 コンパイルと実行
3章 Hadoop分散ファイルシステム
3.1 HDFSの設計
3.2 HDFSに関する概念
3.2.1 ブロック
3.2.2 ネームノードとデータノード
3.3 コマンドラインインターフェース
3.3.1 基本的なファイルシステムの操作
3.4 Hadoopのファイルシステム群
3.4.1 インターフェース
3.5 Javaインターフェース
3.5.1 Hadoop URLからのデータの読み出し
3.5.2 FileSystem APIを使ったデータの読み出し
3.5.3 データの書き込み
3.5.4 ディレクトリ
3.5.5 ファイルシステムへの問い合わせ
3.5.6 データの削除
3.6 データフロー
3.6.1 ファイル読み込みの解剖学
3.6.2 ファイル書き込みの解剖学
3.6.3 一貫性モデル
3.7 distcpによる並列コピー
3.7.1 HDFSクラスタのバランス調整
3.8 Hadoopアーカイブ
3.8.1 Hadoopアーカイブの使用
3.8.2 制限事項
4章 HadoopのI/O
4.1 データの整合性
4.1.1 HDFSにおけるデータの整合性
4.1.2 LocalFileSystem
4.1.3 ChecksumFileSystem
4.2 圧縮
4.2.1 コーデック
4.2.2 圧縮と入力スプリット
4.2.3 MapReduceにおける圧縮の利用
4.3 シリアライゼーション
4.3.1 Writableインターフェース
4.3.2 Writableクラス
4.3.3 カスタムWritableの実装
4.3.4 シリアライゼーションフレームワーク
4.4 ファイルベースのデータ構造
4.4.1 SequenceFile
4.4.2 MapFile
5章 MapReduceアプリケーションの開発
5.1 設定API
5.1.1 リソースの集約
5.1.2 変数の展開
5.2 開発環境の設定
5.2.1 設定の管理
5.2.2 GenericOptionsParser、Tool、ToolRunner
5.3 ユニットテストの作成
5.3.1 mapper
5.3.2 reducer
5.4 テストデータを使ったローカルでの実行
5.4.1 ローカルJobRunnerでのジョブの実行
5.4.2 ドライバのテスト
5.5 クラスタでの実行
5.5.1 パッケージ化
5.5.2 ジョブの起動
5.5.3 MapReduce Web UI
5.5.4 結果の取得
5.5.5 ジョブのデバッグ
5.5.6 リモートデバッガの利用
5.6 ジョブのチューニング
5.6.1 タスクのプロファイリング
5.7 MapReduceのワークフロー
5.7.1 MapReduceジョブへの問題の分割
5.7.2 依存ジョブの実行
6章 MapReduceの動作
6.1 MapReduceジョブの実行の内幕
6.1.1 ジョブの投入
6.1.2 ジョブの初期化
6.1.3 タスクの割り当て
6.1.4 タスクの実行
6.1.5 進行状況とステータスの更新
6.1.6 ジョブの完了
6.2 障害
6.2.1 タスクの障害
6.2.2 tasktrackerの障害
6.2.3 jobtrackerの障害
6.3 ジョブのスケジューリング
6.3.1 フェアスケジューラ
6.4 シャッフルとソート
6.4.1 map側
6.4.2 reduce側
6.4.3 設定のチューニング
6.5 タスクの実行
6.5.1 投機的実行
6.5.2 タスクJVMの再利用
6.5.3 不良レコードのスキップ
6.5.4 タスクの実行環境
7章 MapReduceの型とフォーマット
7.1 MapReduceの型
7.1.1 デフォルトのMapReduceジョブ
7.2 入力フォーマット
7.2.1 入力スプリットとレコード
7.2.2 テキスト入力
7.2.3 バイナリの入力
7.2.4 複数の入力
7.2.5 データベースからの入力(と出力)
7.3 出力フォーマット
7.3.1 テキスト出力
7.3.2 バイナリ出力
7.3.3 複数の出力
7.3.4 遅延出力
7.3.5 データベース出力
8章 MapReduceの機能
8.1 カウンター
8.1.1 組み込みカウンター
8.1.2 ユーザー定義のJavaカウンター
8.1.3 ユーザー定義ストリーミングカウンター
8.2 ソート
8.2.1 準備
8.2.2 部分ソート
8.2.3 全体のソート
8.2.4 セカンダリソート
8.3 結合
8.3.1 map側結合
8.3.2 reduce側結合
8.4 サイドデータの配布
8.4.1 ジョブ設定の利用
8.4.2 分散キャッシュ
8.5 MapReduceライブラリクラス
9章 Hadoopクラスタの構築
9.1 クラスタの仕様
9.1.1 ネットワークトポロジ
9.2 クラスタのセットアップとインストール
9.2.1 Javaのインストール
9.2.2 Hadoopユーザーの生成
9.2.3 Hadoopのインストール
9.2.4 インストールのテスト
9.3 SSHの設定
9.4 Hadoopの設定
9.4.1 設定の管理
9.4.2 環境設定
9.4.3 Hadoopデーモンの重要なプロパティ
9.4.4 Hadoopデーモンのアドレスとポート
9.4.5 Hadoopのその他のプロパティ
9.5 インストールの後処理
9.6 Hadoopクラスタのベンチマーク
9.6.1 Hadoopのベンチマーク
9.6.2 ユーザーのジョブ
9.7 クラウドにおけるHadoop
9.7.1 Amazon EC2でのHadoop
10章 Hadoopの管理
10.1 HDFS
10.1.1 永続的データ構造
10.1.2 セーフモード
10.1.3 監査ログ
10.1.4 ツール
10.2 モニタリング
10.2.1 ロギング
10.2.2 メトリクス
10.2.3 Java Management Extensions
10.3 メンテナンス
10.3.1 ルーチンの管理手順
10.3.2 ノードの参加と脱退
10.3.3 アップグレード
11章 Pig
11.1 Pigのインストールと実行
11.1.1 実行の種類
11.1.2 Pigプログラムの実行
11.1.3 Grunt
11.1.4 Pig Latinのエディタ
11.2 例
11.2.1 サンプルの生成
11.3 データベースとの比較
11.4 Pig Latin
11.4.1 構造
11.4.2 ステートメント
11.4.3 式
11.4.4 型
11.4.5 スキーマ
11.4.6 関数
11.5 ユーザー定義関数
11.5.1 フィルタUDF
11.5.2 評価UDF
11.5.3 ロードUDF
11.6 データ処理オペレータ
11.6.1 データのロードとストア
11.6.2 データのフィルタリング
11.6.3 データのグループ化と結合
11.6.4 データのソート
11.6.5 データのUNIONと分割
11.7 実践Pig
11.7.1 並列性
11.7.2 パラメータ置換
12章 HBase
12.1 Hbaseの基礎
12.1.1 背景
12.2 概念
12.2.1 データモデルに関する弾丸ツアー
12.2.2 実装
12.3 インストール
12.3.1 試運転
12.4 クライアント
12.4.1 Java
12.4.2 RESTとThrift
12.5 例
12.5.1 スキーマ
12.5.2 データのロード
12.5.3 Webクエリ
12.6 HBase対RDBMS
12.6.1 サービスの成功事例
12.6.2 HBase
12.6.3 ユースケース:streamy.comにおけるHBase
12.7 実践
12.7.1 バージョン
12.7.2 愛と憎しみ:HBaseとHDFS
12.7.3 UI
12.7.4 メトリクス
12.7.5 スキーマの設計
13章 ZooKeeper
13.1 ZooKeeperのインストールと実行
13.2 例
13.2.1 ZooKeeperにおけるグループメンバーシップ
13.2.2 グループの作成
13.2.3 グループへの追加
13.2.4 グループ内のメンバーのリストアップ
13.2.5 グループの削除
13.3 ZooKeeperサービス
13.3.1 データモデル
13.3.2 操作
13.3.3 実装
13.3.4 一貫性
13.3.5 セッション
13.3.6 状態
13.4 ZooKeeperによるアプリケーションの構築
13.4.1 設定サービス
13.4.2 耐久性のあるZooKeeperアプリケーション
13.4.3 ロックサービス
13.4.4 さらなる分散データ構造とプロトコル
13.5 ZooKeeperの実用化
13.5.1 耐久性とパフォーマンス
13.5.2 設定
14章 ケーススタディ
14.1 Last.fmにおけるHadoopの利用
14.1.1 Last.fm:ソーシャルミュージック革命
14.1.2 Last.fmにおけるHadoop
14.1.3 Hadoopによるチャートの生成
14.1.4 Track Statisticsプログラム
14.1.5 まとめ
14.2 FacebookにおけるHadoopとHive
14.2.1 イントロダクション
14.2.2 FaceBookにおけるHadoop
14.2.3 仮想的なユースケースの研究
14.2.4 Hive
14.2.5 課題と今後の活動
14.3 Nutch検索エンジン
14.3.1 背景
14.3.2 データ構造
14.3.3 NutchにおけるHadoopデータ処理の例
14.3.4 まとめ
14.4 Rackspaceにおけるログの処理
14.4.1 要件/課題
14.4.2 沿革
14.4.3 Hadoopの選択
14.4.4 収集と蓄積
14.4.5 MapReduceによるログの処理
14.5 Cascading
14.5.1 フィールド、タプル、パイプ
14.5.2 操作
14.5.3 Tap、Scheme、Flow
14.5.4 Cascadingの利用
14.5.5 柔軟性
14.5.6 ShareThisにおけるHadoopとCascading
14.5.7 まとめ
14.6 Apache Hadoopでのテラバイトソート
付録A Apache Hadoopのインストール
A.1 必要事項
A.2 インストール
A.3 設定
A.3.1 スタンドアロンモード
A.3.2 擬似分散モード
A.3.3 完全分散モード
付録B ClouderaのDistribution for Hadoopについて
B.1 必要事項
B.2 スタンドアロンモード
B.3 擬似分散モード
B.4 完全分散モード
B.5 Hadoopの関連パッケージ
付録C NCDC気象情報データの準備
索引

コラム目次
「Hadoop」という名前の由来
Yahoo!でのHadoop
なぜHDFSのブロックはそれほど大きいのか?
HDFSにおけるファイルパーミッション
ネットワークトポロジとHadoop
レプリカの配置
どの圧縮フォーマットを使えばよいのか?
なぜJava Object Serializationを使わないのか?
ユーザー識別情報の設定
設定できるプロパティ
ジョブ、タスク、タスク試行ID
ジョブヒストリ
Hadoopのユーザーログ
MapReduceで進行状況を知らせるのは?
reducer数の選択
入力スプリットとHDFSブロックの関係
MultipleOutputFormatとMultipleOutputsとはどう違う?
ソート順序の制御
RAIDを使わないのはなぜ?
EC2のネットワークトポロジ
メトリクスとカウンターの違いは?
バージョン間の互換性
スキャナ
同期と非同期、どちらのAPIを使うべき?
ZooKeeperはPaxosを使っているのか?
posted by アンドレアス at 23:27| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年01月24日

Hadoop本、2冊目出ましたので、さっそく・・

大きい書店は、早いですね。

Hadoop徹底入門 [大型本] / 太田 一樹, 下垣 徹, 山下 真一, 猿田 浩輔, 藤井 達朗 (著); 濱野 賢一朗 (監修); 翔泳社 (刊)

はじめに

1 Hadoop ってなんだろう?

  1.1 Hadoop とは
  1.2 Hadoop の概要
     1.2.1 Hadoopって何?
     1.2.2 用途
     1.2.3 Hadoopの誕生
     1.2.4 大規模なデータ処理における課題と対応
  1.3 Hadoop の適用領域
     1.3.1 万能型のプロダクトではない
     1.3.2 DBMS とHadoopの比較
     1.3.3 RDBMS とHadoopの連携
  1.4 Hadoop の構成と処理概要
     1.4.1 ApacheのHadoopプロジェクト
     1.4.2 サーバー構成
     1.4.3 HDFS:Hadoop分散ファイルシステム
     1.4.4 Hadoop MapReduceフレームワーク
  1.5 Hadoop の適用事例
     1.5.1 Hadoopで変わるシチュエーション
     1.5.2 Hadoopアプリケーションの利用事例

2 Hadoop の導入

  2.1 Hadoop インストールの準備
     2.1.1 Hadoopの動作モード
     2.1.2 利用するHadoopのパッケージ
     2.1.3 インストール前に用意するもの
  2.2 コミュニティ版Hadoop のインストール
     2.2.1 パッケージの入手
     2.2.2 インストール手順
  2.3 コミュニティ版Hadoop の起動と停止
  2.4 MapReduce 実行による動作確認
     2.4.1 サンプルMapReduceアプリケーション
     2.4.2 ローカルモードでの実行
     2.4.3 擬似分散/完全分散モードでの実行
  2.5 Cloudera’s Distribution for Hadoop(CDH)の導入
     2.5.1 Cloudera 社とCDH
     2.5.2 CDH を利用したrpmのインストール
     2.5.3 インストール先の確認
     2.5.4 完全分散モードでのインストール

3 Hadoop 分散ファイルシステムHDFS

  3.1 Hadoop におけるファイルシステム
  3.2 HDFS の仕組み
     3.2.1 HDFS のアーキテクチャ
     3.2.2 HDFS の利点
     3.2.3 ブロックとメタデータ
  3.3 HDFS のオペレーションョン
     3.3.1 ディレクトリ構成と設定ファイル
     3.3.2 ファイル/ディレクトリのパーミッション
     3.3.3 起動と停止
  3.4 ファイル操作
     3.4.1 hdfs コマンド
     3.4.2 dfs サブコマンド
  3.5 ログ管理
     3.5.1 ログの種類
     3.5.2 ログレベルの動的な変更
     3.5.3 状態確認とメンテナンス
  3.6 WebUI による管理
  3.7 ラックアウェアネスの設定方法
     3.7.1 クラスタ構成の認識
     3.7.2 スクリプトを記述する

4 Hadoop MapReduce フレームワーク

  4.1 MapReduce フレームワークの基礎知識
     4.1.1 Map 処理とReduce 処理
     4.1.2 ごく単純なMapreduce
     4.1.3 分散して処理する場合
  4.2 MapReduce フレームワークの構成
     4.2.1 MapReduceとHDFS
     4.2.2 MapReduceの特徴
  4.3 JobTracker の役割
     4.3.1 機能
     4.3.2 3 つの動作モード
     4.3.3 TaskTracker への処理割り当て
     4.3.4 MapReduceジョブ設定の確認
  4.4 TaskTracker の役割
     4.4.1 機能
  4.5 MapReduce フレームワークの連携動作/監視
     4.5.1 JobClient の役割
     4.5.2 死活監視とハートビート通信
     4.5.3 ジョブの優先度設定とスケジューラ
  4.6 MapReduce フレームワークのオペレーション
     4.6.1 分散環境での起動
     4.6.2 最低限必要な設定
     4.6.3 設定ファイルと起動スクリプト
     4.6.4 JobTracker の設定
     4.6.5 ジョブとタスク
     4.6.6 TaskTracker の脱退判断
     4.6.7 TaskTracker の設定
     4.6.8 MapReduceフレームワークの起動と停止
  4.7 コマンドラインベースのMapReduce 管理
     4.7.1 MapReduceジョブの管理
     4.7.2 MapReduce管理者用コマンド
     4.7.3 TaskTracker の追加
  4.8 WebUI による管理
     4.8.1 MapReduceジョブ可視化

5 MapReduce プログラミング入門

  5.1 MapReduce フレームワーク
  5.2 Java によるMapReduce プログラムの作成方法
     5.2.1 MapReduceプログラムで記述する内容
     5.2.2 MapReduceプログラムの入力と出力
     5.2.3 WordCount アプリケーションの作成
  5.3 ワードカウントサンプルアプリケーション
     5.3.1 プログラムの作成/コンパイル/実行
     5.3.2 WordCount.java 解説
  5.4 MapReduce プログラム実行全体の流れ
     5.4.1 InputSplits:入力データの分割単位
     5.4.2 InputFormat:入力データの分割
     5.4.3 Mapper:map 関数の実行
     5.4.4 Partitioner:中間データの行き先を決定
     5.4.5 Reducer:reduce関数の実行
     5.4.6 OuputFormat
  5.5 Hadoop I/O API
     5.5.1 シリアライズAPI(Writable)
     5.5.2 ファイル構造API(SequenceFile)
  5.6 Hadoop MapReduce フレームワークAPI
     5.6.1 設定API(Configuration)
     5.6.2 Mapper/Reducer
     5.6.3 入力フォーマット(InputFormat)
     5.6.4 出力フォーマット(OutputFormat)
     5.6.5 パーティショナー(Partitioner)
     5.6.6 カウンター(Counter)
     5.6.7 副次データの配布(DistributedCache)
  5.7 MapReduce プログラムのテスト/デバッグ手法
     5.7.1 MapReduceの作法に合わせた設計/記述
     5.7.2 MapReduceプログラムのUnit テスト
     5.7.3 MapReduceプログラムの動作環境設定
     5.7.4 MapReduceプログラムのデバッグ技法

6 SQL 的インターフェイスHive

  6.1 Hive 概略
     6.1.1 MapReduceの容易な活用
     6.1.2 Hive とは
  6.2 Hive とHadoop
     6.2.1 Hive とRDBMS の違い
     6.2.2 テーブルの格納方式
     6.2.3 MapReduceとHive
  6.3 HiveQL
     6.3.1 DDL
     6.3.2 データの格納
     6.3.3 SELECT 文
     6.3.4 コマンドライン/シェルからの実行
     6.3.5 EXPLAIN 文
     6.3.6 ユーザー定義関数
  6.4 インストール
     6.4.1 Hive の導入に必要なもの
     6.4.2 インストール手順
     6.4.3 Hive 動作確認
  6.5 Hive の設定
     6.5.1 metastore 管理設定
     6.5.2 データ保持方法
     6.5.3 ログの確認
     6.5.4 Hive でのチューニング

7 環境構築の効率化

  7.1 Hadoop 環境の効率的な構築
     7.1.1 Hadoop環境の自動構築の準備
  7.2 kickstart によるHadoop 環境構築
     7.2.1 PXE ブート
     7.2.2 kickstart
     7.2.3 サーバーの設定と資材の配置
     7.2.4 PXE ブート関連の設定ファイルの配置
     7.2.5 kickstart の設定ファイルの配置
     7.2.6 OS の自動インストール
  7.3 Puppet によるHadoop 環境設定
     7.3.1 Puppet
     7.3.2 マニフェスト
     7.3.3 Puppet マスターのインストール
     7.3.4 Parallel SSH のインストール

8 運用監視とシステムの可視化

  8.1 Hadoop クラスタの運用監視
  8.2 Hadoop で実現できる監視
     8.2.1 Hadoopのログ
     8.2.2 HadoopのWebUI
  8.3 Ganglia によるHadoop 環境の可視化
     8.3.1 Ganglia とは
     8.3.2 Ganglia によるHadoopクラスタの可視化

9 可用性の向上

  9.1 クラスタシステムの可用性
  9.2 スレーブノードの故障による影響
     9.2.1 DataNode の故障
     9.2.2 TaskTracker の故障
  9.3 マスターノードの故障による影響
     9.3.1 NameNode の故障
     9.3.2 JobTracker の故障
  9.4 HA クラスタによるマスターノードの冗長化
     9.4.1 Heartbeat とDRBD によるHA クラスタ
     9.4.2 DRBD のインストール/設定
     9.4.3 Heartbeat のインストール/設定
     9.4.4 HA クラスタの挙動確認
  9.5 HDFS メタデータのチェックポイントとバックアップ
     9.5.1 CheckpointNode
     9.5.2 BackupNode

10 性能向上のためのチューニング

  10.1 Map 処理とReduce 処理に関するチューニング
     10.1.1 アプリケーションのチューニングポイント
  10.2 MapReduce フレームワークのチューニング
     10.2.1 MapReduceジョブの動作に影響するHadoopの設定
     10.2.2 Map 処理でのフレームワークのチューニング
     10.2.3 Reduce 処理でのフレームワークのチューニング
  10.3 その他チューニング
     10.3.1 Java VM チューニング
     10.3.2 OS チューニング

11 Hadoop に関連するプロダクト

  11.1 分散型データベースHBase
     11.1.1 HBase とは?
     11.1.2 データモデル
     11.1.3 アーキテクチャ
     11.1.4 インストール方法
     11.1.5 HBase Shell
     11.1.6 MapReduceジョブからの使用
     11.1.7 HBase のテーブル設計
  11.2 Pig
     11.2.1 Pig とは
     11.2.2 Pig のインストール
     11.2.3 Pig で扱うデータ型
     11.2.4 Pig の処理でできること
     11.2.5 Pig のコマンド操作
     11.2.6 Pig で使用できるUDF
     11.2.7 Pig を使用する場合に確認すること
  11.3 Thrift
     11.3.1 なぜThrift が必要か?
     11.3.2 Thrift のサーバー/クライアント実装手順
     11.3.3 Thrift を用いたHDFS へのアクセス

索引
執筆者プロフィール
Hadoop [大型本] / Tom White (著); 玉川 竜司, 兼田 聖士 (翻訳); オライリージャパン (刊)

序文
訳者まえがき
はじめに
1章 Hadoop事始め
1.1 データ!
1.2 データの保管と分析
1.3 他のシステムとの比較
1.3.1 RDBMS
1.3.2 グリッドコンピューティング
1.3.3 ボランティアコンピューティング
1.4 Hadoopの歴史
1.5 Apache Hadoopプロジェクト
2章 MapReduce
2.1 気象情報データセット
2.1.1 データフォーマット
2.2 Unixのツールによるデータ分析
2.3 Hadoopによるデータの分析
2.3.1 mapとreduce
2.3.2 Java MapReduce
2.4 スケールアウト
2.4.1 データフロー
2.4.2 集約関数
2.4.3 分散MapReduceジョブの実行
2.5 Hadoopストリーミング
2.5.1 Ruby
2.5.2 Python
2.6 Hadoop Pipes
2.6.1 コンパイルと実行
3章 Hadoop分散ファイルシステム
3.1 HDFSの設計
3.2 HDFSに関する概念
3.2.1 ブロック
3.2.2 ネームノードとデータノード
3.3 コマンドラインインターフェース
3.3.1 基本的なファイルシステムの操作
3.4 Hadoopのファイルシステム群
3.4.1 インターフェース
3.5 Javaインターフェース
3.5.1 Hadoop URLからのデータの読み出し
3.5.2 FileSystem APIを使ったデータの読み出し
3.5.3 データの書き込み
3.5.4 ディレクトリ
3.5.5 ファイルシステムへの問い合わせ
3.5.6 データの削除
3.6 データフロー
3.6.1 ファイル読み込みの解剖学
3.6.2 ファイル書き込みの解剖学
3.6.3 一貫性モデル
3.7 distcpによる並列コピー
3.7.1 HDFSクラスタのバランス調整
3.8 Hadoopアーカイブ
3.8.1 Hadoopアーカイブの使用
3.8.2 制限事項
4章 HadoopのI/O
4.1 データの整合性
4.1.1 HDFSにおけるデータの整合性
4.1.2 LocalFileSystem
4.1.3 ChecksumFileSystem
4.2 圧縮
4.2.1 コーデック
4.2.2 圧縮と入力スプリット
4.2.3 MapReduceにおける圧縮の利用
4.3 シリアライゼーション
4.3.1 Writableインターフェース
4.3.2 Writableクラス
4.3.3 カスタムWritableの実装
4.3.4 シリアライゼーションフレームワーク
4.4 ファイルベースのデータ構造
4.4.1 SequenceFile
4.4.2 MapFile
5章 MapReduceアプリケーションの開発
5.1 設定API
5.1.1 リソースの集約
5.1.2 変数の展開
5.2 開発環境の設定
5.2.1 設定の管理
5.2.2 GenericOptionsParser、Tool、ToolRunner
5.3 ユニットテストの作成
5.3.1 mapper
5.3.2 reducer
5.4 テストデータを使ったローカルでの実行
5.4.1 ローカルJobRunnerでのジョブの実行
5.4.2 ドライバのテスト
5.5 クラスタでの実行
5.5.1 パッケージ化
5.5.2 ジョブの起動
5.5.3 MapReduce Web UI
5.5.4 結果の取得
5.5.5 ジョブのデバッグ
5.5.6 リモートデバッガの利用
5.6 ジョブのチューニング
5.6.1 タスクのプロファイリング
5.7 MapReduceのワークフロー
5.7.1 MapReduceジョブへの問題の分割
5.7.2 依存ジョブの実行
6章 MapReduceの動作
6.1 MapReduceジョブの実行の内幕
6.1.1 ジョブの投入
6.1.2 ジョブの初期化
6.1.3 タスクの割り当て
6.1.4 タスクの実行
6.1.5 進行状況とステータスの更新
6.1.6 ジョブの完了
6.2 障害
6.2.1 タスクの障害
6.2.2 tasktrackerの障害
6.2.3 jobtrackerの障害
6.3 ジョブのスケジューリング
6.3.1 フェアスケジューラ
6.4 シャッフルとソート
6.4.1 map側
6.4.2 reduce側
6.4.3 設定のチューニング
6.5 タスクの実行
6.5.1 投機的実行
6.5.2 タスクJVMの再利用
6.5.3 不良レコードのスキップ
6.5.4 タスクの実行環境
7章 MapReduceの型とフォーマット
7.1 MapReduceの型
7.1.1 デフォルトのMapReduceジョブ
7.2 入力フォーマット
7.2.1 入力スプリットとレコード
7.2.2 テキスト入力
7.2.3 バイナリの入力
7.2.4 複数の入力
7.2.5 データベースからの入力(と出力)
7.3 出力フォーマット
7.3.1 テキスト出力
7.3.2 バイナリ出力
7.3.3 複数の出力
7.3.4 遅延出力
7.3.5 データベース出力
8章 MapReduceの機能
8.1 カウンター
8.1.1 組み込みカウンター
8.1.2 ユーザー定義のJavaカウンター
8.1.3 ユーザー定義ストリーミングカウンター
8.2 ソート
8.2.1 準備
8.2.2 部分ソート
8.2.3 全体のソート
8.2.4 セカンダリソート
8.3 結合
8.3.1 map側結合
8.3.2 reduce側結合
8.4 サイドデータの配布
8.4.1 ジョブ設定の利用
8.4.2 分散キャッシュ
8.5 MapReduceライブラリクラス
9章 Hadoopクラスタの構築
9.1 クラスタの仕様
9.1.1 ネットワークトポロジ
9.2 クラスタのセットアップとインストール
9.2.1 Javaのインストール
9.2.2 Hadoopユーザーの生成
9.2.3 Hadoopのインストール
9.2.4 インストールのテスト
9.3 SSHの設定
9.4 Hadoopの設定
9.4.1 設定の管理
9.4.2 環境設定
9.4.3 Hadoopデーモンの重要なプロパティ
9.4.4 Hadoopデーモンのアドレスとポート
9.4.5 Hadoopのその他のプロパティ
9.5 インストールの後処理
9.6 Hadoopクラスタのベンチマーク
9.6.1 Hadoopのベンチマーク
9.6.2 ユーザーのジョブ
9.7 クラウドにおけるHadoop
9.7.1 Amazon EC2でのHadoop
10章 Hadoopの管理
10.1 HDFS
10.1.1 永続的データ構造
10.1.2 セーフモード
10.1.3 監査ログ
10.1.4 ツール
10.2 モニタリング
10.2.1 ロギング
10.2.2 メトリクス
10.2.3 Java Management Extensions
10.3 メンテナンス
10.3.1 ルーチンの管理手順
10.3.2 ノードの参加と脱退
10.3.3 アップグレード
11章 Pig
11.1 Pigのインストールと実行
11.1.1 実行の種類
11.1.2 Pigプログラムの実行
11.1.3 Grunt
11.1.4 Pig Latinのエディタ
11.2 例
11.2.1 サンプルの生成
11.3 データベースとの比較
11.4 Pig Latin
11.4.1 構造
11.4.2 ステートメント
11.4.3 式
11.4.4 型
11.4.5 スキーマ
11.4.6 関数
11.5 ユーザー定義関数
11.5.1 フィルタUDF
11.5.2 評価UDF
11.5.3 ロードUDF
11.6 データ処理オペレータ
11.6.1 データのロードとストア
11.6.2 データのフィルタリング
11.6.3 データのグループ化と結合
11.6.4 データのソート
11.6.5 データのUNIONと分割
11.7 実践Pig
11.7.1 並列性
11.7.2 パラメータ置換
12章 HBase
12.1 Hbaseの基礎
12.1.1 背景
12.2 概念
12.2.1 データモデルに関する弾丸ツアー
12.2.2 実装
12.3 インストール
12.3.1 試運転
12.4 クライアント
12.4.1 Java
12.4.2 RESTとThrift
12.5 例
12.5.1 スキーマ
12.5.2 データのロード
12.5.3 Webクエリ
12.6 HBase対RDBMS
12.6.1 サービスの成功事例
12.6.2 HBase
12.6.3 ユースケース:streamy.comにおけるHBase
12.7 実践
12.7.1 バージョン
12.7.2 愛と憎しみ:HBaseとHDFS
12.7.3 UI
12.7.4 メトリクス
12.7.5 スキーマの設計
13章 ZooKeeper
13.1 ZooKeeperのインストールと実行
13.2 例
13.2.1 ZooKeeperにおけるグループメンバーシップ
13.2.2 グループの作成
13.2.3 グループへの追加
13.2.4 グループ内のメンバーのリストアップ
13.2.5 グループの削除
13.3 ZooKeeperサービス
13.3.1 データモデル
13.3.2 操作
13.3.3 実装
13.3.4 一貫性
13.3.5 セッション
13.3.6 状態
13.4 ZooKeeperによるアプリケーションの構築
13.4.1 設定サービス
13.4.2 耐久性のあるZooKeeperアプリケーション
13.4.3 ロックサービス
13.4.4 さらなる分散データ構造とプロトコル
13.5 ZooKeeperの実用化
13.5.1 耐久性とパフォーマンス
13.5.2 設定
14章 ケーススタディ
14.1 Last.fmにおけるHadoopの利用
14.1.1 Last.fm:ソーシャルミュージック革命
14.1.2 Last.fmにおけるHadoop
14.1.3 Hadoopによるチャートの生成
14.1.4 Track Statisticsプログラム
14.1.5 まとめ
14.2 FacebookにおけるHadoopとHive
14.2.1 イントロダクション
14.2.2 FaceBookにおけるHadoop
14.2.3 仮想的なユースケースの研究
14.2.4 Hive
14.2.5 課題と今後の活動
14.3 Nutch検索エンジン
14.3.1 背景
14.3.2 データ構造
14.3.3 NutchにおけるHadoopデータ処理の例
14.3.4 まとめ
14.4 Rackspaceにおけるログの処理
14.4.1 要件/課題
14.4.2 沿革
14.4.3 Hadoopの選択
14.4.4 収集と蓄積
14.4.5 MapReduceによるログの処理
14.5 Cascading
14.5.1 フィールド、タプル、パイプ
14.5.2 操作
14.5.3 Tap、Scheme、Flow
14.5.4 Cascadingの利用
14.5.5 柔軟性
14.5.6 ShareThisにおけるHadoopとCascading
14.5.7 まとめ
14.6 Apache Hadoopでのテラバイトソート
付録A Apache Hadoopのインストール
A.1 必要事項
A.2 インストール
A.3 設定
A.3.1 スタンドアロンモード
A.3.2 擬似分散モード
A.3.3 完全分散モード
付録B ClouderaのDistribution for Hadoopについて
B.1 必要事項
B.2 スタンドアロンモード
B.3 擬似分散モード
B.4 完全分散モード
B.5 Hadoopの関連パッケージ
付録C NCDC気象情報データの準備
索引

コラム目次
「Hadoop」という名前の由来
Yahoo!でのHadoop
なぜHDFSのブロックはそれほど大きいのか?
HDFSにおけるファイルパーミッション
ネットワークトポロジとHadoop
レプリカの配置
どの圧縮フォーマットを使えばよいのか?
なぜJava Object Serializationを使わないのか?
ユーザー識別情報の設定
設定できるプロパティ
ジョブ、タスク、タスク試行ID
ジョブヒストリ
Hadoopのユーザーログ
MapReduceで進行状況を知らせるのは?
reducer数の選択
入力スプリットとHDFSブロックの関係
MultipleOutputFormatとMultipleOutputsとはどう違う?
ソート順序の制御
RAIDを使わないのはなぜ?
EC2のネットワークトポロジ
メトリクスとカウンターの違いは?
バージョン間の互換性
スキャナ
同期と非同期、どちらのAPIを使うべき?
ZooKeeperはPaxosを使っているのか?
posted by アンドレアス at 21:41| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年01月20日

ESX 4.1 と vCenter Server 4.1のアップグレードをVMwareは出してました。

おかしいなぁー、なんで以前は、
検索でひっかからなかったんだろう(- -)。

わからん?!



Upgrading to ESX 4.1 and vCenter Server 4.1 best practices

http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1022104

http://www.vmware.com/support/pubs/vs_pubs.html

VMware徹底入門 第2版 [大型本] / ヴイエムウェア株式会社 (著); 翔泳社 (刊)


VMware vSphereエンタープライズ・インテグレーション [大型本] / 伊藤忠テクノソリューションズ (著); 翔泳社 (刊)


posted by アンドレアス at 20:26| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年01月17日

VMware、vSphereのスロット数・・・知らないままだと、後でエライことになる・・かも

■今日のお題:スロット数


スロット数とは・・・・・


スロット数は、どんな影響を与えるのか?・・・


スロット数を知らないエンジニアが、
仮想化した場合に、何が起こるか?


●参考:「VMware vSphereエンタープライズ・インテグレーション」
    P184〜「VMware vSphere共通基盤構築(設計編)」
VMware vSphereエンタープライズ・インテグレーション [大型本] / 伊藤忠テクノソリューションズ (著); 翔泳社 (刊)




VMware徹底入門 第2版 [大型本] / ヴイエムウェア株式会社 (著); 翔泳社 (刊)
posted by アンドレアス at 22:10| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年01月14日

vSphere PowerCLIを始めるための準備です。月曜日から、ちょっとでも管理や環境準備の自動化まで、できたら、いいなぁ〜。

vSphere PowerCLIを始めるための準備。


12.2 PowerCLIの概要

P377〜

●準備
1. PowerShell2.0をダウンロード。
2.
3.
4.

Windows PowerShell実践システム管理ガイド (マイクロソフト公式解説書―マイクロソフトITプロフェッショナルシリーズ) [単行本] / 目時 秀典, 横田 秀之 (著); 日経BPソフトプレス (刊)


Windows PowerShellクックブック [大型本] / Lee Holmes (著); マイクロソフト株式会社ITプロ エバンジェリストチーム (監訳), マイクロソフト株式会社ITプロ エバンジェリストチーム (監訳) (監修); 菅野 良二 (翻訳); オライリージャパン (刊)
posted by アンドレアス at 19:58| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2011年01月03日

2011年、KVMで仮想化エンジニアになろう!と狙っている人のための連載(その1)

2011年になりましたが、
KVMを連続的にやりましょうか。

(と、昨年も、言っていましたね、確か。(^^))

WEB+DB PRESSの最初の方のページに、
「さくらのVPS」という2ページの記事のような、
広告のようなページがあるんですが、そこで、
さくらのVPSで仮想環境として選択したのが、
KVMで・・とかあったので、
そろそろKVMもやっておくかー、と。

もし、十分使えそう、というか管理面も含めて
十分ならば、「管理者経験を作ろう!」に投入しようと思います。

KVM徹底入門 Linuxカーネル仮想化基盤構築ガイド [大型本] / 平 初, 森若 和雄, 鶴野 龍一郎, まえだ こうへい (著); 翔泳社 (刊)

すべてわかる仮想化大全2011 (日経BPムック) [大型本] / ITpro/日経コンピュータ/日経コミュニケーション/日経SYSTEMS/日経NETWORK (編集); 日経BP社 (刊)



■環境

Fedora14
カスタムインストール選択
「仮想化」は「詳細」含めてすべて選択し、インストールした。

▲補足
KVM徹底入門では、Fedora12でのインストール時、
なるだけ不要パッケージをインストールしないで、行っていますが、
これは、あくまで慣れた人が、慣れた以降にやっていることなので、
KVMビギナーは、なるだけ、GNOMEやX Windows Systemなんかも
普通に入れて2、3度試しておくべきです。

そうしないと、私のように、時間を無駄にするでしょう(^^)


■インストールされたパッケージ

# rpm -qa | grep virt
libvirt-python-0.8.3-2.fc14.i686
python-virtkey-0.50-8.fc14.i686
libvirt-0.8.3-2.fc14.i686
virt-viewer-0.2.1-1.fc13.i686
python-virtinst-0.500.4-1.fc14.noarch
virt-manager-0.8.5-1.fc14.noarch
virt-top-1.0.4-3.fc13.i686
libvirt-client-0.8.3-2.fc14.i686
# rpm -qa | grep kvm
qemu-kvm-0.13.0-1.fc14.i686

# rpm -qa | grep qemu
qemu-system-x86-0.13.0-1.fc14.i686
qemu-img-0.13.0-1.fc14.i686
qemu-kvm-0.13.0-1.fc14.i686
gpxe-roms-qemu-1.0.1-1.fc14.noarch
qemu-common-0.13.0-1.fc14.i686

# lsmod | grep kvm
kvm_amd 29397 0
kvm 213156 1 kvm_amd



# virsh list
Id 名前 状態
----------------------------------




■KVM/QEMUの実行
注)
この先は、「KVM徹底入門」を読んでください。
でないと、何をやっているか、わからない(or わかりにくい)と思います。

# qemu-kvm -monitor stdio
QEMU 0.13.0 monitor - type 'help' for more information



Gnomeを使っていると、こういうWindowsが表示されます。

QEMU.png


(qemu) info kvm
kvm support: enabled
(qemu) quit
#

終了。



# ps auwx | grep libvirt
root 1488 1.9 0.4 74516 8348 ? Sl 13:18 1:08 libvirtd --daemon
nobody 1544 0.0 0.0 2712 652 ? S 13:18 0:00 /usr/sbin/dnsmasq --strict-order --bind-interfaces --pid-file=/var/run/libvirt/network/default.pid --conf-file= --listen-address 192.168.122.1 --except-interface lo --dhcp-range 192.168.122.2,192.168.122.254 --dhcp-lease-max=253


■virt-managerの起動

# virt-manager

「アプリケーション」-「システムツール」-「仮想マシンマネージャー」でも可能。


newvm1.png




■仮想マシンインストール時の注意

既知のことだったのだが、ぼーっとして始めたこともあり、
512MBのメモリ割り当てで、インストールを始めてしまったので、
遅い、遅い・・・。

インストール時は、いつも1024MBのメモリを割り当てているんだが、
しまった。

「油断せずにいこう!」と意識してないといけないですね、いつも。
(「テニスの王子様」の手塚 、風に。)

さて、「仮想マシンマネージャー」の表示を「CPU使用率」以外の
「ネットワーク I/O」「ディスク I/O」も増やしました。

vmm5.png


そろそろ、仮想マシンのインストールが終わりそうです。

はぁーーーっ!ふらふら

KVM徹底入門 Linuxカーネル仮想化基盤構築ガイド [大型本] / 平 初, 森若 和雄, 鶴野 龍一郎, まえだ こうへい (著); 翔泳社 (刊)

すべてわかる仮想化大全2011 (日経BPムック) [大型本] / ITpro/日経コンピュータ/日経コミュニケーション/日経SYSTEMS/日経NETWORK (編集); 日経BP社 (刊)

posted by アンドレアス at 17:00| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2010年12月30日

HAや特にFT機能で重要な、スロットサイズ、スロット数の概念と知識と経験

結構、トラブルになりがちな、スロット数・スロットサイズ。

「VMware vSphereエンタープライズ・インテグレーション」のP228クラスタ設計にも出ていますが、単純なクラスタ登録台数などは、誰でも把握し理解できるわけですが、
スロット数を計算しているエンジニアは多くないと思います。

そもそも、「それ何?」というエンジニアは大半かもしれません。

VMWareの講習でも、やってないらしいので。(人聞きです)
(注)クラスタ構成を組む、などをやっていないのではなく、
  どういうケースで、クラスタとかFTを構成する場合、
  スロット数が足りなくなるケースが発生するとか、
  それは、どういう時か、など。

軽い検証を行っている際には、誰も気づかず、
実務に近づくにつれて、発覚しがちです。



VMware vSphereエンタープライズ・インテグレーション [大型本] / 伊藤忠テクノソリューションズ (著); 翔泳社 (刊)



はまらないように注意しておきましょう。
下手すれば、予定していたHAやFTができないという事態につながるケースも
出てきます。



Enabling Fault Tolerance on a powered on virtual machine fails with the error: Not enough resources
http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1012602




/var/log/vmware/vpx/vpxa.logともありますね。
/opt/vmware/aam folderとか。





Best practices and advanced features for VMware High Availability
http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1002080


[重要] vSphere Availability Guide
http://www.vmware.com/pdf/vsphere4/r41/vsp_41_availability.pdf



やはり日本語版には、ないような(?)資料も多いですね。

[重要]Automating High Availability (HA) Services with VMware HA
http://www.vmware.com/pdf/vmware_ha_wp.pdf


VMware徹底入門 第2版 [大型本] / ヴイエムウェア株式会社 (著); 翔泳社 (刊)
posted by アンドレアス at 12:17| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2010年12月26日

見た?サブバージョンとKickstartが特集に出てきたで。ホンマに、「自動化時代」の始まりやなー。

Software Design (ソフトウェア デザイン) 2011年 01月号が発売中です。
先月のエンジニア生き残りに続いて、
今月も売れてますね。


今月の目玉は、・・・・やっぱり、この



Software Design (ソフトウェア デザイン) 2011年 01月号 [雑誌] [雑誌] / 技術評論社 (刊)



特集ですね。
その中でも、
Kickstart(キックスタート)とSubversion(サブバージョン)の連携、ですね。



おそらく、Kickstartも、Subversionも
使ったことがない人は、これから使うのが当たり前の時代になるので、
ぜひとも触っておきましょう。


結局、突き詰めれば、「自動化」とか
「誰がやっても同じ内容の仕事の削除、軽減」につながっているのが、
Kickstartやsubversionです。


Kickstart(キックスタート)は、今年No1のLinux書籍と言った、

プロのための Linuxシステム構築・運用技術 (Software Design plus) [大型本] / 中井 悦司 (著); 技術評論社 (刊)


でも、取り上げられています。
P29〜P40 で、丁寧に解説されているので、
サーバー管理者づらして、「そんなのいらねぇー」と、
ふんぞり返らずに、ぜひ身につけておくべき技術です。


最近出てきた技術ではなく、
10年前にも普通に使用されていました。


Linuxエンジニア養成講習が行われていた中でも、
数台のマシン環境構築とか、RHCE試験でも使用されていたので、
非常に「枯れた技術」です。


posted by アンドレアス at 14:48| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2010年12月24日

オープンソースクラウドの本命と言われた、openstackに関する内容をメモしつつ、別のブログたてて、記録していこうかな。

openstackに関するメモ。

・サービスを運用するのに必要な設備を自社で所有しなくてよいため、
 バランスシートの改善効果

・リースについては、2007年の税制改正以降、一定以上の規模の企業では
 リース品も資産計上して償却対象とする必要があることに注意が必要である。



http://www.openstack.org/

OSSクラウド基盤 OpenStackのすべて【前編】
http://techtarget.itmedia.co.jp/tt/news/1012/22/news01.html

http://www.publickey1.jp/blog/10/openstack.html

http://www.atmarkit.co.jp/news/201010/22/openstack.html

http://openstack.jp/


GOGAOM(http://gigaom.com/)
http://gigaom.com/2010/07/25/why-openstack-has-its-work-cut-out/

http://agilecat.wordpress.com/2010/08/27/openstack-%E3%81%8C%E5%89%8D%E9%80%94%E5%A4%9A%E9%9B%A3%E3%81%AA%E7%90%86%E7%94%B1%E3%82%92%E8%AA%AC%E6%98%8E%E3%81%97%E3%82%88%E3%81%86-cloud-cloudcomputing-openstack-rackspace-cbajp/

みてわかるクラウドマガジンvol.1 (日経BPパソコンベストムック) [大型本] / 日経BP出版センター (刊)

みてわかるクラウドマガジンvol.2 (日経BPパソコンベストムック) [大型本] / 日経Linux (編集); 日経BP社 (刊)

■次回予告(次回って、明日かな?今日?無理無理)
OpenStack Computeは、cloud computing fabric controller だそうです。
実感が湧かないため、やはりインストールして試してみるしかありませぬ。


Swiftをインストールしてみよう!
http://wiki.openstack.org/SwiftInstall/Austin


■その他のクラウド関連
http://wakame.jp/
http://www.cloud.com/
http://www.opennebula.org/
http://open.eucalyptus.com/




米国クラウドビジネス最前線 [単行本(ソフトカバー)] / 森 洋一 (著); オーム社 (刊)


posted by アンドレアス at 00:08| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2010年12月23日

vCenterアップデート、VMware ESXのアップデート、テンプレートのアップデート、VMware Toolsアップデート、vSphereクライアントのアップデート

アップデートには、5つある。

1.vCenterアップデート
2.VMware ESXのアップデート
3.テンプレートのアップデート(ギョッ!これ、あるの?)
4.VMware Toolsアップデート
5.vSphereクライアントのアップデート


3には、驚きました。

調べねば・・・・。


てっきり、CenterやESXでアップされていると思ってたのですが。

でも、P162を見ていると、危険そうなアップの仕方ですねー、という
気がしますが・・・。


■参考書籍:P162〜

VMware vSphereエンタープライズ・インテグレーション [大型本] / 伊藤忠テクノソリューションズ (著); 翔泳社 (刊)


VMware徹底入門 第2版 [大型本] / ヴイエムウェア株式会社 (著); 翔泳社 (刊)


できるPRO Vmware vSphere 4 (できるPROシリーズ) [大型本] / 渋谷 一郎, 福留 真二, 沢田 礼子, 工藤 真臣, できるシリーズ編集部 (著); ヴイエムウェア株式会社, ヴイエムウェア株式会社 (監修); インプレスジャパン (刊)
posted by アンドレアス at 16:56| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2010年12月15日

じゃあ、いいかげん、KVMも始めますか。(第1回と2回目)

WEB+DB PRESSの最初の方のページに、
「さくらのVPS」という2ページの記事のような、
広告のようなページがあるんですが、そこで、
さくらのVPSで仮想環境として選択したのが、
KVMで・・とかあったので、
そろそろKVMもやっておくかー、と。

もし、十分使えそう、というか管理面も含めて
十分ならば、「管理者経験を作ろう!」に投入しようと思います。

KVM徹底入門 Linuxカーネル仮想化基盤構築ガイド [大型本] / 平 初, 森若 和雄, 鶴野 龍一郎, まえだ こうへい (著); 翔泳社 (刊)

すべてわかる仮想化大全2011 (日経BPムック) [大型本] / ITpro/日経コンピュータ/日経コミュニケーション/日経SYSTEMS/日経NETWORK (編集); 日経BP社 (刊)



■環境

Fedora14
カスタムインストール選択
「仮想化」は「詳細」含めてすべて選択し、インストールした。

▲補足
KVM徹底入門では、Fedora12でのインストール時、
なるだけ不要パッケージをインストールしないで、行っていますが、
これは、あくまで慣れた人が、慣れた以降にやっていることなので、
KVMビギナーは、なるだけ、GNOMEやX Windows Systemなんかも
普通に入れて2、3度試しておくべきです。

そうしないと、私のように、時間を無駄にするでしょう(^^)


■インストールされたパッケージ

# rpm -qa | grep virt
libvirt-python-0.8.3-2.fc14.i686
python-virtkey-0.50-8.fc14.i686
libvirt-0.8.3-2.fc14.i686
virt-viewer-0.2.1-1.fc13.i686
python-virtinst-0.500.4-1.fc14.noarch
virt-manager-0.8.5-1.fc14.noarch
virt-top-1.0.4-3.fc13.i686
libvirt-client-0.8.3-2.fc14.i686
# rpm -qa | grep kvm
qemu-kvm-0.13.0-1.fc14.i686

# rpm -qa | grep qemu
qemu-system-x86-0.13.0-1.fc14.i686
qemu-img-0.13.0-1.fc14.i686
qemu-kvm-0.13.0-1.fc14.i686
gpxe-roms-qemu-1.0.1-1.fc14.noarch
qemu-common-0.13.0-1.fc14.i686

# lsmod | grep kvm
kvm_amd 29397 0
kvm 213156 1 kvm_amd



# virsh list
Id 名前 状態
----------------------------------




■KVM/QEMUの実行
注)
この先は、「KVM徹底入門」を読んでください。
でないと、何をやっているか、わからない(or わかりにくい)と思います。

# qemu-kvm -monitor stdio
QEMU 0.13.0 monitor - type 'help' for more information



Gnomeを使っていると、こういうWindowsが表示されます。

QEMU.png


(qemu) info kvm
kvm support: enabled
(qemu) quit
#

終了。



# ps auwx | grep libvirt
root 1488 1.9 0.4 74516 8348 ? Sl 13:18 1:08 libvirtd --daemon
nobody 1544 0.0 0.0 2712 652 ? S 13:18 0:00 /usr/sbin/dnsmasq --strict-order --bind-interfaces --pid-file=/var/run/libvirt/network/default.pid --conf-file= --listen-address 192.168.122.1 --except-interface lo --dhcp-range 192.168.122.2,192.168.122.254 --dhcp-lease-max=253


■virt-managerの起動

# virt-manager

「アプリケーション」-「システムツール」-「仮想マシンマネージャー」でも可能。


newvm1.png




■仮想マシンインストール時の注意

既知のことだったのだが、ぼーっとして始めたこともあり、
512MBのメモリ割り当てで、インストールを始めてしまったので、
遅い、遅い・・・。

インストール時は、いつも1024MBのメモリを割り当てているんだが、
しまった。

「油断せずにいこう!」と意識してないといけないですね、いつも。
(「テニスの王子様」の手塚 、風に。)

さて、「仮想マシンマネージャー」の表示を「CPU使用率」以外の
「ネットワーク I/O」「ディスク I/O」も増やしました。

vmm5.png


そろそろ、仮想マシンのインストールが終わりそうです。

はぁーーーっ!ふらふら

KVM徹底入門 Linuxカーネル仮想化基盤構築ガイド [大型本] / 平 初, 森若 和雄, 鶴野 龍一郎, まえだ こうへい (著); 翔泳社 (刊)

すべてわかる仮想化大全2011 (日経BPムック) [大型本] / ITpro/日経コンピュータ/日経コミュニケーション/日経SYSTEMS/日経NETWORK (編集); 日経BP社 (刊)

posted by アンドレアス at 20:29| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2010年12月06日

VMware vSphere ESX,vCenterのアップデートで目にする、参考になるのは、一般エンジニアの方のWebだったりする

長い記事タイトルですが、正直に、
本音で書くと、こうなります。


VMware vSphere ESXのアップデートで目にする、
微妙なバージョンに関して、参考になるのは、
一般エンジニアの方のWebだったりします。

VMwareのドキュメントも、具体的に書いていない内容もあるので、
厄介です。

※もちろん、どこかに書いてあるかもしれませんが、
 本来これを読むべきはずのドキュメントに書いていないと
 意味がないわけで。


というわけで、下記のWebが参考になります。

http://d.hatena.ne.jp/ogawad/20100926/1285448615

特に、ここ。

32-bit ODBC: C:\Windows\SysWOW64\odbcad32.exe
64-bit ODBC: C:\Windows\System32\odbcad32.exe


わかる人は、わかりますよね、何を言っているか・・。わーい(嬉しい顔)

なんで64bit用のODBCのディレクトリがSystem32で、
32-bit用の ODBCが、SysWOW64ディレクトリなんだ、と。


ある意味、ディレクトリ名のバグか?って思うのでした・・・。わーい(嬉しい顔)

検索でひっかかりずらいので、
偶然私のブログにたどりついたら、頭の片隅にでも、
置いておいてくださいなー。



VMware徹底入門 第2版 [大型本] / ヴイエムウェア株式会社 (著); 翔泳社 (刊)


VMware vSphereエンタープライズ・インテグレーション [大型本] / 伊藤忠テクノソリューションズ (著); 翔泳社 (刊)


できるPRO Vmware vSphere 4 (できるPROシリーズ) [大型本] / 渋谷 一郎, 福留 真二, 沢田 礼子, 工藤 真臣, できるシリーズ編集部 (著); ヴイエムウェア株式会社, ヴイエムウェア株式会社 (監修); インプレスジャパン (刊)
posted by アンドレアス at 06:46| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2010年12月05日

日経SYSTEMS 2010.8と2010.9の失敗から学ぶ仮想化トラブルシューティング等を、読んでます

そろそろ、寝ますか・・・・。


●日経SYSTEMS 2010.8

・失敗から学ぶ仮想化トラブルシューティング「第5回 運用設計段階の問題」


トラブル1:設計した監視方法で負荷が把握できない

トラブル2:負荷分散機能が設計通り運用できない

主なキーワード:リソースプール、DRSクラスタ、非アフィニティルール、VMware HA、スロット


・こちら検証ラボ
 デスクトップ仮想化

主なキーワード:ICA,RDP7,RDP6


●日経SYSTEMS 2010.9

・特集3「仮想化ではまるバックアップの落とし穴」

 APIが短期間で変更に、ってあるな。注意注意。


・失敗から学ぶ仮想化トラブルシューティング「最終回 運用段階の問題」

トラブル1:仮想環境のアップグレード

※いつでも元に戻せるように。
 ハイパーバイザー上の仮想マシンは、一時他の仮想化ホストへ退避だって。
 別のESXへ移せ、ということか。

 確かに、そうしないと怖いですねぇー。

 どのコンポーネントが変化するのか、しっかり理解しておく必要があります。
 ↑
 書籍とかVMware のWebを見ても、明確に書いてない気がするのだが・・・。
 気のせいかなわーい(嬉しい顔)

ここでは、下記3つに分けて、注意事項や方法などが、書かれています。

@ハイパーバイザー(Vmware ではESXですね)
A管理サーバー(Vmware ではvCenterですね)
B仮想マシンのハードウェア構成(VMwareだと、VMware Tools含むのかな?)

Bが一番曲者(くせもの)な気がします。

 物理的な番号が変わるかも、として、PCIスロットのことが
 書かれてますが、VMwareのマニュアルなんかだと、Diskのsdxが変わらないかを
 チェックしておく、みたいなことも書いてるし。



トラブル2:VMスプロール問題=>仮想マシンのライフサイクル管理が必要



新製品/新サービス で、
ネットワンシステムズのVMware vSphere 4.1 Essentialsが、
1CPU当たり約1万円とありますね。

Standard版が、15万8600円ですか。

(Essentialsを買っても、vMotionとかDRSとかHAできなかった、確か。違う?)


★参考書籍
VMware vSphereエンタープライズ・インテグレーション [大型本] / 伊藤忠テクノソリューションズ (著); 翔泳社 (刊)

VMware徹底入門 第2版 [大型本] / ヴイエムウェア株式会社 (著); 翔泳社 (刊)


すべてわかる仮想化大全2011 (日経BPムック) [大型本] / ITpro/日経コンピュータ/日経コミュニケーション/日経SYSTEMS/日経NETWORK (編集); 日経BP社 (刊)
posted by アンドレアス at 00:06| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2010年12月04日

「Mastering VMware vSphere 4」はアマゾンのレビューでも評価高いし、ブログも有名なんですねぇー。


「Mastering VMware vSphere 4」は、vSphere4系の書籍では、
レビュー人数と評価の高さでダントツですが、
作者のブログも有用な内容が多いですね。


■URL
http://blog.scottlowe.org/

■VLAN Trunking Between Nexus 5010 and Dell PowerConnect Switches

■内容
Dell PowerConnectでのTrunk設定について書かれていますね。

■英単語
interoperabilityという単語は、ITエンジニアだと目にしたことあるんじゃないでしょうか?

■英熟語
was throttled down to 1Gbps



Mastering VMware vSphere 4 (For Dummies (Computer/Tech)) [ペーパーバック] / Scott Lowe (著); Sybex (刊)


posted by アンドレアス at 20:56| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

iSCSIができるストレージは、必ずしもHPのを買わないといけないわけではなく、VMware ReadyもCitrix Ready認証も取得しているQNAPがあるんですけど、知ってました?まだ、知らなかった?

NAS、と言えば、今では、企業内でも家庭内でも使用している
定番のストレージです。

商品も数多く出ている中で、
最近、かなり人気上昇中なのが、このQNAPです。

その中でも、デュアルコアを持つコレの評価が高いです。

※実際、VmwareやXenなどの仮想化用ストレージで使用している、
 あるいは仕様検討を考えているところも多いですよね。

 価格が安いので、HPもうかうかしていられないでしょう(^^)

QNAP ターボNAS TS-459Pro 黒 TS-459Pro / QNAP



■QNAP ターボNAS TS-459Pro 黒 TS-459Pro

・1.5TBハードディスク×4個使用(あるいは 2TのHDDを4台使用とかも可能らしい。)
・非常に静か
・ギガビットLANが2つある
・torrentファイルを単独でダウンロードする機能がある
・安い
・大容量のHDDに入れ替え前提に設計されているので、
 簡単に交換、自動再構築可能
・VMware Ready およびCitrix Ready認証、またMicrosoft Hyper-V環境との互換性

 http://www.qnap.com/jp/pro_detail_feature.asp?p_id=162

・複数のLUN (論理ユニット番号) とiSCSIターゲットをサポート

・CHAP認証とLUNマスキングを使用して設計された、
 アドバンストACL (アクセスコントロールリスト) で、
 イニシエータから非認可のアクセスをブロックする機能あり


・PC Worldマガジンが「Top 100 Best Tech Products 2010(2010年 最優秀テクノロジー製品 トップ100)」を受賞する唯一のNASサーバとしてQNAP TS-259 Pro Turbo NAS サーバを選出

・スピード
・ビジネス向け機能(iSCSI、MPIO)
・iPhoneアプリQMobile
 http://www.qnap.com/jp/PressRelease_detail.asp?pr_id=218


すごいですね。
バッファローの法人向けストレージを買おうと思ってましたが、
こっちを先に買っておくことにしました。


他にも、こんなにラインアップが・・。

・QNAP ターボNAS TS-210 白 TS-210
QNAP ターボNAS TS-210 白 TS-210 / QNAP

・QNAP ターボNAS TS-439ProII 黒 TS-439 ProII


QNAP ターボNAS TS-439ProII 黒 TS-439 ProII / QNAP

・QNAP ターボNAS TS-459Pro 黒 TS-459Pro
QNAP ターボNAS TS-439ProII 黒 TS-439 ProII / QNAP

http://www.qnap.com/jp/index.asp


http://www.qnapclub.jp/




■iSCSIとは・・・。
'initiator' (発信側) 'target'(ターゲット)
http://www.qnap.com/jp/pro_application.asp?ap_id=211#ap01


■WindowsのiSCSI Initiator
http://www.microsoft.com/downloads/en/details.aspx?familyid=12cb3c1a-15d6-4585-b385-befd1319f825&displaylang=en






・次は、スイッチですが・・・。

iSCSIを使用するネットワークで使用するスイッチとして、まずは、コレを使用。
(私の家で使う場合)

BUFFALO Giga対応 スイッチングHub ホワイト LSW4-GT-8NS/WH

BUFFALO Giga対応 スイッチングHub ブラック LSW4-GT-8NS/BK / バッファロー



次に、Catalystですね。
posted by アンドレアス at 09:42| Comment(0) | TrackBack(0) | Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

今、仮想化のストレージとして必須知識・経験になっているiSCSI

仮想化・クラウドが、サービスとして提供され始め、
実際に使用される機会が、どんどん増えています。

(東京近辺ですが(^^))。

仮想化・クラウドで、意外にも経験してきた人間が極度に少ないのが、
ストレージです。


特に、大容量。

製薬業界とか10年前から大規模ストレージ(ハードディスク以外に、CD,DVD系ストレージを含む)を扱ってきた業界で働いたことがある人は、少ないです。


ファイバーチャネルの経験ある人も少ないですが、
まして、最近隆盛を極め始めたiSCSIなんて、ほとんど、
経験者はいません。


なので、VMwareとかXenはもちろん、力を入れるべきですけど、
iSCSIなどのストレージを、触っておく方が、
よりアピールできます、というか、目立ちます。

就職、転職、案件競合、どれにも言えます。



書店で見てもらうとわかりますが、
目立ちはしないものの、ずっと売れている書籍郡が
下記です。

どっと

売れているわけではないですが、

ずっと


売れています。


途切れないんですね。

ZFS 仮想化されたファイルシステムの徹底活用 [大型本] / 長原 宏治, 佐藤 通敏, 今井 悟志, 加藤 久慶 (著); アスキー・メディアワークス (刊)

ZFS 仮想化されたファイルシステムの徹底活用

iSCSIが出てきます。
だから、買っておく価値十分。
iSCSIイニシエータを使う箇所なども、仮想化ストレージとして、
iSCSIを使用する機会が増えた今、必須知識なので、
自分で環境・設定確認する


SAN & NASストレージネットワーク管理 [単行本] / W.Curtis Preston, 豊沢 聡, 金崎 裕己 (著); オライリー・ジャパン (刊)


■SAN & NASストレージネットワーク管理


マスキングのことも書いてあり、驚きました。

もっと、早く読んでおけば、よかった(^^)



FreeNASで作るiSCSIサーバー構築ガイド―Hyper‐V用ストレージに向けて [単行本] / 清野 文男 (著); 日刊工業新聞社 (刊)

■FreeNASで作るiSCSIサーバー構築ガイド―Hyper‐V用ストレージに向けて


KVM徹底入門 Linuxカーネル仮想化基盤構築ガイド [大型本] / 平 初, 森若 和雄, 鶴野 龍一郎, まえだ こうへい (著); 翔泳社 (刊)

■KVM徹底入門 Linuxカーネル仮想化基盤構築ガイド


どれを買っても良いと思いますが、興味のある人、
会社費用で、とりあえず買ってから、
良かったら自費で購入するなどして、
必須知識iSCSIを見につけておくべき時代に突入しました。
posted by アンドレアス at 07:27| Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする

2010年10月25日

私も、やるくらいだから、アマゾン一人勝ちかな。いよいよ来週からスタートするよぉー。

さあ、いよいよ、アマゾン、来週から始まるよぉー。

http://www.itmedia.co.jp/enterprise/articles/1010/22/news029.html

http://aws.amazon.com/free/

私も、やるくらいだから、アマゾン一人勝ちかな。

クラウド界のApple(電話界で言えばiPhone)になるでしょう。


なまじ、円高だけに、尚更、日本のホスティングサービスとか日本のクラウドが、高額なのが目に付きますよね。


AmazonCloudテクニカルガイド ―EC2/S3からVPCまで徹底解析―

AmazonCloudテクニカルガイド ―EC2/S3からVPCまで徹底解析―

  • 作者: 李 昌桓
  • 出版社/メーカー: インプレスジャパン
  • 発売日: 2010/04/23
  • メディア: 単行本(ソフトカバー)





よくわかるAmazonEC2/S3入門 ―AmazonWebServicesクラウド活用と実践 (Software Design plusシリーズ)

よくわかるAmazonEC2/S3入門 ―AmazonWebServicesクラウド活用と実践 (Software Design plusシリーズ)

  • 作者: 藤崎 正範
  • 出版社/メーカー: 技術評論社
  • 発売日: 2010/06/11
  • メディア: 大型本







DeNAもこういうのを始めますが、せっかくなら、インパクト重視で
アマゾンみたいに思い切って欲しかったですね。

せめて、先着100名様は1年間無料とか。

http://www.itmedia.co.jp/news/articles/1010/22/news039.html


みてわかるクラウドマガジンvol.1 (日経BPパソコンベストムック)

みてわかるクラウドマガジンvol.1 (日経BPパソコンベストムック)

  • 作者:
  • 出版社/メーカー: 日経BP出版センター
  • 発売日: 2010/04/02
  • メディア: 大型本








株主が許しませんとか言うのかも知れませんが、結果的に、微妙な金額ですし、
「なんだ、あわよくば、プログラマーを引き抜きたいから、やるんだろう」みたいな、
なんとなーく、勘ぐってしまうのが、惜しいです。


せっかくだから、先着xxx名無料、やらないかなー。
まだ、マスコミは飛びつくと思うよ。

日額399円だったら、
スタバかタリーズで、
ソイラテのTall(トール)サイズを毎日頼んだ方がいいや!


って思ってしまうんです(^^)


この辺は、マーケティング担当とか広報とかが、
「インパクト」を与えることを狙って
社長に訴えないといけないんでしょうけどね。

GMOのインフラを使う分、思い切れなかったのかなぁー。




http://www.itmedia.co.jp/news/articles/0902/20/news030.html


ヤフーがクラウド事業を本腰入れてやりそうな気すらしてきましたが・・・・。
みてわかるクラウドマガジンvol.2 (日経BPパソコンベストムック)

みてわかるクラウドマガジンvol.2 (日経BPパソコンベストムック)

  • 作者:
  • 出版社/メーカー: 日経BP社
  • 発売日: 2010/09/03
  • メディア: 大型本




クラウド Amazon EC2/S3のすべて~実践者から学ぶ設計/構築/運用ノウハウ~ (ITpro BOOKs)

クラウド Amazon EC2/S3のすべて~実践者から学ぶ設計/構築/運用ノウハウ~ (ITpro BOOKs)

  • 作者: 並河祐貴
  • 出版社/メーカー: 日経BP社
  • 発売日: 2009/11/05
  • メディア: 単行本(ソフトカバー)



posted by アンドレアス at 20:33| Hadoop大規模分散システム | このブログの読者になる | 更新情報をチェックする