概要
推薦システムの開発やベンチマークのために作られた,映画のレビューためのウェブサイトおよびデータセット.ミネソタ大学のGroupLens Researchプロジェクトの一つで,研究目的・非商用でウェブサイトが運用されており,ユーザが好きに映画の情報を眺めたり評価することができる.
MovieLensのウェブサイト
MovieLensでユーザができるアクションは基本的に以下の3つのみ.
- 映画に評価を付ける(0.5-5.0の0.5刻み)
- 映画をウィッシュリストに入れる
- 映画にタグをつける
映画サムネイルの下にある★☆の箇所からインタラクティブに評価を付けることができる.
たまにログイン時などにアンケートやサーベイが提示されることもある.
なお,映画の評価を文章で投稿したり,他のユーザのレーティング情報を見ることはできない.
データセット
MovieLensは現在も運用されデータが蓄積されているため,データセットの作成時期によってサイズが異なる.
- MovieLens 100K Dataset
- 100,000 ratings from 1000 users on 1700 movies. Released 1998.
- MovieLens 1M Dataset
- 1 million ratings from 6000 users on 4000 movies. Released 2003.
- MovieLens 10M Dataset
- 10 million ratings and 100,000 tag applications applied to 10,000 movies by 72,000 users. Released 2009.
- MovieLens 20M Dataset
- 20 million ratings and 465,000 tag applications applied to 27,000 movies by 138,000 users. Released 2015.
- MovieLens Latest Datasets
- 現在movielensにあるすべてのデータセット
他に,映画とタグ間のスコアを算出したtag genomeデータセットがある.
- MovieLens Tag Genome Dataset
- 11 million computed tag-movie relevance scores from a pool of 1,100 tags applied to 10,000 movies.
データの内容
現在最新のデータセット(MovieLens 20M Dataset)では,どのユーザがどの映画にどれくらいのレートをつけたのか(ratings.csv),どんなタグを付けたのか(tags.csv)のデータ,および映画のタイトルとジャンル(movies.csv),他の映画データベースとのID対応表(links.csv)で構成される.詳しくは各データセットのREADME.txtを参照.
なお,過去の100K,1M,10Mのデータセットではそれぞれフォーマットが異なる.
Ratings Data File Structure (ratings.csv)
1,2,3.5,1112486027
1,29,3.5,1112484676
1,32,3.5,1112484819
Tags Data File Structure (tags.csv)
18,4141,Mark Waters,1240597180
65,208,dark hero,1368150078
65,353,dark hero,1368150079
Movies Data File Structure (movies.csv)
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,Jumanji (1995),Adventure|Children|Fantasy
3,Grumpier Old Men (1995),Comedy|Romance
Links Data File Structure (links.csv)
1,0114709,862
2,0113497,8844
3,0113228,15602
その他の映画に関連するデータセット
- IMDb - Movies, TV and Celebrities - IMDb
- データセット: Alternative Interfaces
- The Movie Database (TMDb)
- OMDb API - The Open Movie Database
- Rotten Tomatoes
- アメリカの有名な映画レビューサイト.映画評論家のレビューと一般視聴者のレビューの2つを同時にみることができる.
- kaggleのデータセット: Data - Sentiment Analysis on Movie Reviews | Kaggle
- API: Rotten Tomatoes API - Welcome to the Rotten Tomatoes API
- “MovieTweetings: a Movie Rating Dataset Collected From
Twitter” (RecSys2013)
- 映画に関するツイートを集めたデータセット
- データセット: sidooms/MovieTweetings · GitHub
- Movietweetings - RecSysWiki