"Combining Visual and Textual Features for Information Extraction from Online Flyers"読んだ

Posted in paper-review with tags EMNLP2014 -

EMNLP2014のshort paper.

概要

不動産の広告チラシからの固有表現認識において,文字のサイズや色などのテキスト以外の視覚的情報を使うことで認識精度を上げたという論文.

背景と問題設定

仲介業者が入るような産業は,往々にして情報が集約され整備されたデータベースを持たないことが多い.特に不動産は仲介業者が独自の情報網によって対応しているケースが多く,データベースがあっても内容が古かったりと,信頼できる最新情報は広告チラシのみということがある.そのため,広告チラシから不動産の情報を自動的に情報抽出したいというのが,この論文のモチベーション.

既存研究は色々あるが,性能評価などで比較として出てくるわけではないので今回は省略.

データセットと手法

様々な情報源から集めてきた不動産の広告チラシ800件を,2人でアノテーション作業を行った.抽出対象とする固有表現は以下の12種類.

  • 仲介者の情報
    • 仲介者の名前,メールアドレス,電話番号,仲介業者の電話番号
  • 不動産の情報
    • 通りや交差点,町の名前,近所の情報,州,郵便番号
  • 建物の情報
    • サイズ,タイプ
  • 信用情報
    • 守秘義務条項

以下はアノテーションの様子.左側に不動産の広告チラシが表示されており,右側のインターフェイスでアノテーション作業を行っている.

(Figure 2:EMNLP2014206.pdf

広告チラシはHTML形式に変換したのちに文字の素性を作成した.基本的なトークナイズの処理結果のほかに,単語に含まれる文字の大文字/小文字による分類,文字か数字か記号かといった種類,メールアドレス・電話番号・郵便番号といった正規表現による分類,USの街や州の名前の対応などを素性として使用している.

一方で視覚的な素性は,フォントサイズ,フォントの色,文字の位置(y座標)を用いた.HTMLとして表示される情報はCSSによって定義されるが,実際のブラウザ上での表示結果をCSSのみから取得することは難しい.今回はブラウザで実際に表示させたのちに,jsで文字に対応するそれぞれの値を取得した.

固有表現抽出には線形カーネルのSVMをデフォルトパラメータで実行し,多クラス分類は一対他分類器を利用した.データセットの80%で学習し残り20%で評価.

結果

SVMのモデルはそのままに,文字だけの素性のみと,文字と視覚的な素性の組み合わせの合計2つの実験条件で評価した.その結果,視覚的な素性を用いることで全体のF値が83%から87%に上昇した.個々の固有表現抽出においても視覚的な素性を使うことによって全体的に良い結果となったが,電話番号やメールアドレス,建物のタイプに関してはF値はほとんど変化しなかった.

感想

今回は不動産のチラシからの固有表現抽出だったが,ビジネスの世界での構造的な情報の無さはどこの国も同じのようだ.ウェブページ上の視覚的情報を加えて認識精度を上げるのは,シンプルかつ直感的で,今回は結果も伴っていて良い研究だった.一方で手法部分に関して,そもそも1つしか試してなかったりSVMの掛け方雑すぎないかとか考えてしまうが,まあ今回は内容重視ということであまり追求しないことにする.

個々の固有表現を見るとやっぱり得手不得手があるようで,電話番号とかメールアドレスはそもそも正規表現のタイプで素性を作っているから文字だけの情報で割と当たるのは当然として,Space Size/Typeといった表現は難しいようだ.論文内でも書かれているように,データセット作成の際のアノテーションにおいてもきちんとルールを定めており,人間でも割と難しいタスクのように感じる.こういう部分に対して視覚的情報が効いたところもあるので,アプローチの方法としては良かったんだろう.こういう研究を見ていると,あの情報も使えそうコレも効きそうと色々想像が膨らんでくるあたりが面白い.実際にやろうとするとものすごく骨の折れる作業なのだろうけれども.

参考

Written by yag_ays
このエントリーをはてなブックマークに追加
Older article
PythonでXgboost