Node v0.10.33 (Stable)

Node v0.10.33 (Stable)

最近世間を騒がせているPOODLE攻撃ですが、node.jsがこの脆弱性に対応されたようです。 SSLv2とSSLv3によるセキュアプロトコルがデフォルトで無効になりました。

もし SSLv2, SSLv3 をサポートさせたい場合、node 起動時に --enable-ssl2 or --enable-ssl3 をつければいいらしい。

参考

LDAの実装リンク

適宜更新。

情報理論の復習

情報理論

情報理論

第3章 情報源と通信路のモデルの 3.1, 3.2 の復習。

記憶のない情報源

各時点における情報源記号の発生確率が、他の時点とは独立である情報源。

記憶のない定常情報源

任意の時刻における各状態の出力確率が同一の確率分布を持つ情報源。
時刻tだろうが、時刻t+1だろうが、情報源記号の出力確率は変わらない。

エルゴード性

記憶のない定常情報源における十分長い出力系列に対してその情報源の統計的な性質が完全に現れているという性質。この性質が成り立つ情報源では、
集合平均(ensemble average)  \overline{f(X)} = \Sigma_{x} f(x) P_{X}(x)
時間平均(time average) \langle f(X) \rangle = lim_{n \rightarrow \infty} \frac{1}{n} \Sigma^{n}_{i=0} f(x_i)
が一致する。このことから、一般的に計算するのが難しい集合平均を時間平均から求めることができる。
また定常情報源であっても、エルゴード性を持たない情報源はいくらでもある。例:1/2の確率で0,1の系列を出力する二元定常情報源において、長時間ずっと0を出力したとき、その確率はp(0)=1となり、p(0)=1/2とは一致せず、統計的性質を求めることができない。

マルコフ情報源

任意の時刻における出力の確率分布が直前のm個の出力に依存するとき、その情報源をm元マルコフ情報源と呼ぶ。直前の出力列によって各状態の確率分布が異るので、定常情報源ではない。
m重マルコフq元情報源の場合、直前のm個それぞれにおいて出力がq通りあるので、q^m通りの状態があると見なせる。とすると、ある状態においてある記号を出力したとき、直前のm個が変わり、別の状態に移る(状態遷移)と見なせる。状態遷移と言えばオートマトンということで、マルコフ情報源に対して状態や状態遷移確率などを定義することができて、マルコフ情報源を状態図で記述することができる。マルコフ情報源の状態遷移にのみに着目する場合をマルコフ連鎖と呼ぶ。

ここで、情報理論形式言語理論がつながった。

しかし、正規マルコフ情報源では、はじめにどんな状態分布が与えられても、十分時間が経過すれば、状態の遷移は定常的になり、従って出力も定常的になる。さらに、エルゴード的であることも証明することができる(らしい)。つまり、正規マルコフ情報源は十分時間が経過すれば、エルゴード情報源と見なすことができる。*1

マルコフ情報源がエルゴード性をもつ条件はエルゴード性 - 機械学習の「朱鷺の杜Wiki」によると、

  • Irreducible:どの状態から始めても,全ての状態に到達可能
  • aperiodic:定時間後に確率1で戻ってくるような状態がない
  • 状態数は有限

これは、正規マルコフ情報源の定義すなわち「閉じた状態集合に対して、非周期的なマルコフ情報源」であることを考えると、同じことを言っていることがわかる。

*1:途中で力つきたので、またp.32から読む。。

人工知能学会2011で気になる発表メモ

jsai2011 Schedule からザーッと見て探してみた。

1J3-5 命題論理に基づく確率モデルのためのベイズ推定

https://kaigi.org/jsai/webprogram/2011/paper-372.html

規則性と不確実性が入り交る世界をモデル化するため,論理の記述力と確率モデルの
モデリング力を組み合わせる研究が行われている.本研究では任意の命題論理式上の
ベイズ推定を提案する.ここでは事前知識のうち,決定的なものは論理式として,確率的
なものは事前分布として表現される.これにより我々の知識をより柔軟にモデルに取り入
れることが可能となる.更に本研究では提案法を代謝経路に関する仮説の評価に適用する.

1F4-2 オススメ論文検索システム:OSUSUME

https://kaigi.org/jsai/webprogram/2011/paper-390.html

本システムは、ユーザが過去に執筆した論文やキーワードをベースに、様々な異なる観点からの推薦を生成し、論文を提示するシステムを提案する。日本語のキーワードからも多言語の論文を推薦可能な観点、論文の手法や目的に焦点を置いた観点、初心者向けの入門・解説など基礎的な論文を推薦する観点などを推薦手法に取り入れる。

2E3-4in ディリクレ過程を用いたアカウントを共有するユーザの購買のモデリング

https://kaigi.org/jsai/webprogram/2011/paper-63.html

1 つのアカウントの複数人のユーザによる共有を考慮することにより推薦システムの精度を改善するための手法を提案する.複数人が1 つのアカウントを共有している場合,各アカウントの購買履歴から個々人の嗜好を推定することができなくなり,結果として推薦システムの精度が低下してしまう.そこで我々は,トピックモデルを基にアカウントを共有する潜在ユーザ毎の購買行動をモデル化し,このモデルに基づいて推薦を行う.

1G2-3 業務分析のためのトピックモデルを用いた行動推定

https://kaigi.org/jsai/webprogram/2011/paper-225.html

計算機やセンサ、記録デバイスの小型化や無線技術の発展により、人体の動作や
生体活動に関する情報を長期間収集することが可能になった。本研究では、セン
サ情報から人がどのような行動を行っているかを推定する行動推定において、従
来より推定の対象であった歩行や座位などの基本的な行動だけでなく、基本的な
行動の複雑な組み合わせから成る上位行動や業務を、トピックモデルを用いて推
定する。

2011-05-18の作業メモ

  • PRML グラフィカルモデルの章を読み始める

symmetric Dirichlet distribution

Dirichlet distribution - Wikipedia, the free encyclopedia
K次元ディリクレ分布のパラメータベクトルを\alphaとしたとき、\alphaの各要素が全て同じ値であるようなディリクレ分布。ベイズ推論でディリクレ分布を事前分布として使うとき、「i番目の要素はj番目の要素よりもよく出現するらしい」といった情報が何もないときに、各要素の値を同じにする。
このディリクレ分布の特殊な場合、1つのスカラ値によって分布を制御できるので、このパラメータを concentration parameterと呼ぶ。このパラメータをαと置くと、
α=1の時、K-1次元上の単体*1上の一様分布となる。
α>1の時、密な形状となる。
α<1の時、疎な形状となる。ほとんどの値が0で、一部だけ極端に大きな値を取る。

α>1の時は、αが大きくなるにつれ、分布がより鋭くなって、不確かさが小さくなるというのはPRMLを読んで納得できたが、直感的にα<1の時の雰囲気があまりわからない。

*1:単体がまだよくわからない

LATENT DIRICHLET LANGUAGE MODEL FOR SPEECH RECOGNITION

著者:Jen-Tzung Chien and Chuang-Hua Chueh
アブストラクト:LDAは文書のモデリングと分類に成功している。LDAは単語の連鎖を考慮せずに、bag-of-wordsの枠組みに基づいて文書確率を計算する。このモデルは音声認識において、単語予測の確かさから異なる、文書レベルでのトピック構造を発見する。(?)この論文では、単語列のモデリングに対する潜在的ディリクレ言語モデル(LDLM)を提案する。新しいベイズの枠組みは、n-gramイベントの潜在的なトピックの不確かさを特徴付けるために、事前分布としてディリクレ分布を用いることで、導入される。頑健なトピックに基づく言語モデルは状況に応じて構築される。実験では、連続音声認識に対するLDLMを実装し、PLSA言語モデルよりも良い結果を得た。
キーワード:Natural languages, Bayes procedures, clustering methods, smoothing methods, speech recognition
状態:未読、