雑記帳(@watagasi_)

生成モデル is 何

LDAについて勉強していると、トピックモデルに関して出てくるワードの「生成モデル」。

 

「データを生成するモデルが生成モデル~」みたいな説明がありますが、そこでよくわからなくなりました。

 

調べたうちでは、「BOW表現になった単語の集合を用意して、そこから生成モデルを使って文書を生成する~」みたいなことがそこかしこで書かれているんですが。

 

そもそも既に文書データが有って、それをBOW表現にした集合も用意してるのに、なぜまた文書を生成しなきゃいけないのか。それがよくわかりません。

 

BOW表現になっている集合に、なんかバー―ッと計算式当てはめてトピック抽出すればいいのでは…?と思うんですけど(クソ大雑把)、どこか理解が間違っているのでしょうか。

 

このあたり

Amazon CAPTCHA

こういうの読んでも「今やってる作業は何のために何をしているのか」ということについて具体的に書かれてなさすぎてどっと疲れます。理解した暁にはアホの視点から、最も優しいトピックモデル解説をしたいですね。