概要

推薦システムの開発やベンチマークのために作られた,映画のレビューためのウェブサイトおよびデータセット.ミネソタ大学のGroupLens Researchプロジェクトの一つで,研究目的・非商用でウェブサイトが運用されており,ユーザが好きに映画の情報を眺めたり評価することができる.

MovieLensのウェブサイト

MovieLensでユーザができるアクションは基本的に以下の3つのみ.

  • 映画に評価を付ける(0.5-5.0の0.5刻み)
  • 映画をウィッシュリストに入れる
  • 映画にタグをつける

映画サムネイルの下にある★☆の箇所からインタラクティブに評価を付けることができる.

たまにログイン時などにアンケートやサーベイが提示されることもある.

なお,映画の評価を文章で投稿したり,他のユーザのレーティング情報を見ることはできない.

データセット

MovieLens | GroupLens

MovieLensは現在も運用されデータが蓄積されているため,データセットの作成時期によってサイズが異なる.

他に,映画とタグ間のスコアを算出したtag genomeデータセットがある.

データの内容

現在最新のデータセット(MovieLens 20M Dataset)では,どのユーザがどの映画にどれくらいのレートをつけたのか(ratings.csv),どんなタグを付けたのか(tags.csv)のデータ,および映画のタイトルとジャンル(movies.csv),他の映画データベースとのID対応表(links.csv)で構成される.詳しくは各データセットのREADME.txtを参照.

なお,過去の100K,1M,10Mのデータセットではそれぞれフォーマットが異なる.

Ratings Data File Structure (ratings.csv)

1,2,3.5,1112486027
1,29,3.5,1112484676
1,32,3.5,1112484819

Tags Data File Structure (tags.csv)

18,4141,Mark Waters,1240597180
65,208,dark hero,1368150078
65,353,dark hero,1368150079

Movies Data File Structure (movies.csv)

1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,Jumanji (1995),Adventure|Children|Fantasy
3,Grumpier Old Men (1995),Comedy|Romance
1,0114709,862
2,0113497,8844
3,0113228,15602

その他の映画に関連するデータセット