0%

Yahoo!ニュース

@YahooNewsTopics

NaNRetweets

522Likes

【中国 ノーベル平和賞報道規制か】
news.yahoo.co.jp/pickup/6406555

中国ではノーベル平和賞について、一部メディアが速報を流したが、その後に削除されて閲覧できない状態に。「表現の自由を守るため努力をした」と評価したジャーナリスト2人の受賞報道について、当局が不適切と判断した可能性も。

データ収集

まず、ユーザーにツイートの分析リクエストを送信してもらい、リクエストされたツイート・リツイートをTwitterAPIを利用して取得します。次に、取得したデータから、ユーザーとツイートの特徴を抽出することで、データ収集を行います。このようなデータ収集の例として、ユーザー登録されてからツイートまでの経過時間,フォロー/フォロワー数が挙げられます。

機械学習

入力されたデータを固定長テンソルに変換し、RNN(LSTM), CNNを組み合わせたモデルによってフェイク度を算出しています。

グラフ生成

ツイート/リツイートしたユーザーのプロフィール画像を取得し、プロフィール画像を丸く切り抜き、ツイート/リツイートの前後関係を利用してグラフを描画しています。そして、グラフを背景画像に重ねています。

ツイート

グラフ画像をTwitterにアップロードして、分析結果をツイートしています。

機械学習モデルの選定

自然言語処理型と伝播モデル処理型を検討しました。

なぜ伝播モデルを採用したか?

Early Detection of Fake News on Social Media Through Propagation Path Classification with Recurrent and Convolutional Networks を読み、伝播モデルを利用すると早期検出もできることを発見しました。

次に、FNED: A Deep Network for Fake News Early Detection on Social Mediaは、PU-Learning採用やNLPの組み合わせなど様々な改善により5分間の検出精度90%を達成しています。そのためFNEDの実装をしようと試しましたが、当時の能力不足により断念しました。ひとまずPPCの実装に取り掛かりました。

なぜ自然言語処理型を採用しなかったのか?
Using NLP for Fact Checkingを読んだ時点で、自然言語処理によるフェイクニュースの検出は現実的ではないという判断をしました。