ソフトウェアエンジニアのための機械学習によるデータ分析実践(9/3)

セミナー概要

日時:
2015年9月3日(木)
13:00-17:00(受付開始: 12:30)
会場:
国立情報学研究所 国立情報学研究所 20階 ミーティングルーム(2009/2010)
概要:
 収集・蓄積が可能なデータ量が増えたことで,このビッグデータからビジネスに有効な知見を発見(データマイニング)するための機械学習技術に注目が集まっています.オープンソースのツールなどが充実してきたことで,研究者や専門家でなくても機械学習技術を利用することが可能となってきており,ソフトウェアエンジニアにも機械学習によるデータ分析の知識が求められています.ツールやライブラリの使い方は,書籍やWeb上で詳しく解説されており,複雑な機械学習アルゴリズムでも簡単に利用することが可能になりました.

しかし,分析自体は簡単に行うことができても,分析前の準備,分析手法の選択,分析結果の評価など,分析プロセスに問題があると,適切な分析結果を得ることができません.

本セミナーでは,機械学習によるデータ分析のプロセスを実際に手を動かしながら学んでいきます(聴講だけでも問題ありません).

講義ではPythonとR,両方の例で説明しますので,どちらか好きな方(あるいは両方)で実際に分析をしていただくことができます.

当日会場に用意されたシンクライアントにて演習を行うことができますが,ご自身のPCで動かしてみたいという方は,以下の事前準備の説明に従い,演習に必要なソフトウェアとデータを準備してご持参ください.

※事前準備:
[ソフトウェア]
PythonもしくはRは,それぞれ,以下のライブラリを利用予定ですので,事前にお好きな方をインストールしておいてください(括弧内は動作確認したバージョン).セミナーではPython,Rの動作に関するご質問をお受けする時間がありませんのであらかじめご了承ください.

Python(2.7.10)
matplotlib(1.4.3), numpy(1.9.2), pandas(0.16.2), scipy(0.15.1)
scikit-learn(0.16.1), statsmodels(0.5.0)
および上記ライブラリの依存ライブラリ
※AnacondaというPython distributionだと一括導入できて便利です.

R(3.2.0)
caret(6.0.47), doMC(1.3.3), e1071(1.6.4), gbm(2.1.1), glmnet(2.0.2),
kernlab(0.9.20), nloptr(1.0.4), randomForest(4.6.10), rpart(4.1.9)
および上記ライブラリの依存ライブラリ
※IDEはRStudioが便利です

[データ]
以下のデータを利用しますので事前にPCにダウンロードしておいてください.
http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.csv
(Data obtained from http://biostat.mc.vanderbilt.edu/DataSets)

講師:
日立製作所 研究開発グループ 鴨志田 亮太
定員:
30名(先着順)
※定員に達し次第,申し込みを締め切らせていただきます。
参加費:
一般 3,000円/学生 1,000円
会員:1,000円(税込み)
※日本ソフトウェア科学会 会員の方も会員価格となります。
※NPO法人 トップエスイー教育センター会員及び日本ソフトウェア科学会会員の方は、優先的に受講いただけます。
参加申込方法:
参加申込みサイトより必要事項を入力の上、お申込みください。
http://ws.formzu.net/fgen/S53074529/
主催:
NPO法人 トップエスイー教育センター
協力:
国立情報学研究所 GRACEセンター
協賛:
日本ソフトウェア科学会 ソフトウェア工学の基礎研究会
お問合せ窓口:
セミナーに関するご質問などは、下記アドレスにて承ります。
inquiry_[at]_topse.or.jp ※_[at]_部分を@に変えてください