スポンサーサイト 

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
[ --/--/-- --:-- ] スポンサー広告 | トラックバック(-) | コメント(-)

自分のツイートをPolarisで解析 

Twitterで今までのツイートをダウンロードできるようになったのでダウンロードした。
ダウンロードの仕方は以下。
Twitterが正式に過去の全ツイートのダウンロード機能提供開始、今すぐ実行して試す方法はこんな感じ - GIGAZINE

そしたらPolarisとかいうデータマイニング・フレームワークを紹介されたから自分の今までのツイートを解析してみた。

頻度


読み込んだらツイート内に出てきた単語リストとその単語の出現頻度が見れた。
読み込みの時に名詞だけを単語として認識するようにしてる。
あと、アルファベットは全部小文字に変換、カタカナはひらがなに変換されてる。

リプライの時にに付くTwitter ID(@Mudd1erとか)の部分が1単語として認識してたから
誰に対してどれだけリプライしたかがわかった。

人のツイートをRTした場合はその人のTwitter IDに:(コロン)が付くようになっていて、:までを単語として認識してたから
Twitter ID + :の数がその人のツイートをRTした回数になっているはず。
ただ、結構前のRTは:の付かない形式で保存されたから少しズレはあるけど。


解析すると単語の文脈情報をグラフ上で視覚化してくれる。

graphhh.png


この解析結果に出てきているのは今までのツイートでよく出てくる単語。
線で結ばれている単語同士は、それらの語と語の間に共起性があることを示しているらしい。
解析パラメータを黒ノード50、黒リンク50、赤ノード25、緑ノード25にして解析してみた結果こうなった。
一応「ー」「!」「ょ」みたいな記号だけとか一文字だけじゃ意味がない単語はある程度除去した。

rtと@jamesthemesse:が結ばれてるから@jamesthemesserさんのツイートをよくRTしてる。
Twitter IDと何か単語が結ばれてるところはその人に対するリプライでよくその単語を使っている。
@syufffとωが結ばれていて、ωから(と)が結ばれているから@syufffさんに対するリプライでωを使った顔文字をよく使っていたんだと思う。


読み込むときに名詞だけじゃなくて動詞とか形容詞も単語として認識するようにしたり
解析パラメータ変えたら表示される単語数が増えるから、より詳しくどんなツイートをしてたかがわかる。


暇ならやってみたらいいんじゃないですかね。
[ 2013/03/13 20:17 ] 適当 | TB(0) | CM(0)

コメントの投稿














管理者にだけ表示を許可する

トラックバック

この記事のトラックバックURL
http://uoods.blog105.fc2.com/tb.php/529-8342b46d


上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。