Session23 : Web and Collaborative Applications担当:灘本 明代(甲南大学) 【SIGMOD2009勉強会】 1 Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大)
Session23 : Web and Collaborative Applications
担当:灘本 明代(甲南大学) 【SIGMOD2009勉強会】 1 Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大)
Session23 : Web and Collaborative Applications
On Supporting Effective Web Extraction (S) A Partial Persistent Data Structure to Support Consistency in Real-time Collaborative Editing (S) Detecting Bursty Events in Collaborative Tagging Systems (S) Effective Automated Object Matching Efficient Identification of Coupled Entities in Document Collections (S) 2 Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大)
On Supporting Effective Web Extraction
Wook-Shin Han (Kyungpook National University), Wooseong Kwak (Kyungpook National University), Hwanjo Yu (POSTECH) Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大) 3
背景
Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大) 4 Web data integration, mash up 等にとって HTMLからのタプルの抽出は重要 市販のソフトは HTMLタグを解析しXpath queryを用いて抽出している HTML上の小さな変更に対応できない!! Robustなタプル抽出システム そこで本研究では Webページのエレメントを2次元空間上のオブジェクトと見立てて,SpatialJoinをすることにタプルを抽出する ②query言語であるRAQueryの提案
RAQuery(Rectangle Algebra Query Language)
Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大) 5 Xqueryに類似したsyntaxを持っている. Match:relevant element(ユーザの入力によるほしいタプルの標本タプル)の発見 RA:RectangleAlgebraによるSpatialJoin DOMTree 実験なし
A Partial Persistent Data Structure to Support Consistency in Real-time Collaborative Editing
Qinyi Wu (Georgia Institute of Technology), Calton Pu (Georgia Institute of Technology), João Ferreira (University of São Paulo) 6 Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大)
Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大) 8 (S, M)からなる S:ポジションスタンプ: S={si ∈Q, 1
提案システムと実験
Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大) 9 提案システム: 実験 32bit GNU/Linux Intel Pentium 4 CPU 2.8GHz1GBRAM Dataset: 2008/3/14 wikipediaのスニペット ・ディスクスペースの比較(File,RCS,PPS) ・LogicalViewからPhysicalViewへのアップデートコストの検証 ・PhysicalView からLogicalViewへのアップデートコストの検証
Detecting Bursty Events in Collaborative Tagging Systems
Junjie Yao (Peking University), Bin Cui (Peking University), Yuxin Huang (Peking University), Yanhong Zhou (Peking University) Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大) 10
背景 Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大) 11 Collaborative Tagging System タグを解析する事により,様々なトレンドを取得可能 大規模なタググラフからタグの共起関係を解析 Bursty Eventを抽出する. ●:Bursty tag ○:Stable tag エッジ:共起関係
実験 Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大) 13 Data:1ヶ月データを収集, 200,000ユーザのタグ履歴 270,502,498のタグ,33,938,603のURL, htmlサイズ187G 3つの手法の比較 ①Fung(VLDB2005)の手法,②全グラフを対象とした手法,③提案手法 ② ① ③ ③では「battery」「review」といった重要な単語も抽出できている.
Effective Automated Object Matching
Diego Zardetto (ISTAT), Monica Scannapieco (ISTAT), Tiziana Catarci (Rome) Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大) 14
背景
Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大) 15 ObjectMatching:情報源の異なる2つのデータオブジェクトを特定して,同じrealWorldに提示する問題 さまざまな手法が提示されている 完全自動ではなく,また効率的ではない. 本研究では 完全自動で効率的な手法の提案 最尤法のMixture model(混合分布モデル)に基づいた手法を提案! 通常2つのオブジェクト間の距離を用いてOMを解決するが,これはMatchとUnmatchにクラスタリングしてその重ね合わせの距離により求める. ・パラメータの設定 ・MatchとUnmatchのクラスタリング
混合分布モデルとは
Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大) 16 確率密度分布p(x) が、 m個の確率密度分布{p(x|j):j=1,…,m} の重み付き線形結合 によってモデル化できるとする。このような分布は、混合分布(mixture distribution)と呼ばれている。 重み係数wj は、混合パラメー タ(mixinig parameter)と呼ばれている.
提案手法
Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大) 17 混合分布モデルを用いた他の手法と異なる点 他の研究はrecordと呼ばれる1種類のデータオブジェクトを対象とし,RLアプリケーションのみを扱う. ほとんどはFellegi-Sunterアプローチを使用しているのに対し,本研究は一致/不一致を表すk-ベクトル変数を用いる. 混合分布モデルは通常2つのコンポーネントを選択するが,本研究ではクラスタリングを行うため,複数のコンポーネントを対象とする.(この個数が問題)
Efficient Identification of Coupled Entities in Document Collections
Nikos Sarkas (University of Toronto), Albert Angel (University of Toronto), Nick Koudas (University of Toronto), Divesh Srivastava (AT&T Labs Research) Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大) 18
背景
Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大) 19 User Generated Contentには様々な知識やグループがある これらを抽出するには前処理としてメタデータの解析が必要である. 2つのエンティティ間の相関関係を求める. ・ X2検定 ・set-similarity etc 現在はさまざまな手法が用いられている 問題点は ・ Threshold Variation ・ Top-k Variation 複合条件や非線形尤度検定に適応しない 本研究では 2つのエンティティ間の相関関係を求めるのに
提案手法
Session 23 : Web and Collaborative Applications Security 担当:灘本(甲南大) 20 ei,ej: エンティティ, Nij:ei,ej両方を含むコンテンツの数 THR-ENT(Threshold Variation) 関連性の弱いデータを削除する. L(ei,ej) ≧ T TOP-ENT(Top-k Variation) 最終的に値がTop-kになったら終了 ドキュメントすべてのエンティティ間の関連を求めるために,2つの手法を提案する. 尤度
Comments