新学期に向けて ~その5 フィルタリングを正しく理解しよう

来週から、いよいよ新学期が始まります。入園入学進学の準備はお済みでしょうか?
お子様の携帯電話やパソコンにフィルタリングを入れましたか?

インターネットはとても便利で有益ですが、ポルノ画像や暴力画像、自殺サイトなど子どもに見せたくない有害サイトも氾濫しています。「フィルタリング」とは、有害サイトをブロックする機能のことです。

その方式はいくつかあります。以前も取り上げましたが、代表的な方式を簡単にご説明します。

1.URL 方式
2.キーワード方式

3.文脈解析

1.URL 方式

URL 方式では、Web ページを、1つ1つ人が見て、評価、分類し、URL リストを作成します。ユーザがWebページにアクセスしようとするたび、膨大なURLリストのデータベースを参照するのが一般的です。
nn-URL.jpgURL方式には2種類あり、携帯電話のフィルタリングサービスは「ブラックリスト方式」です。

・「ホワイトリスト方式」:子どもにとって有益と思われるサイトリストを作り、それ以外のサイトを見せない。
・「ブラックリスト方式」:有害なサイトのリストをつくり、そのリストに載っているサイトを見せない。

この方式は、問題点がいくつあります。

人間の主観が入りやすい。

それぞれの製品やサービスで分類ルールがあります。しかし、同じような内容のWebサイトがある場合、そのWebサイトをレビューした人によって、別の分類になる可能性があります。

Webサイトの内容は変化する

Webサイトの内容は常に変化しており、ポータルサイト、ニュースサイト、ブログ等に共通しています。同じWebサイトが、ある日は暴力であったり、翌日は性的な内容であったりします。
絶えず変わるインターネットのコンテンツに対しては、事前に分類されたURL リストを準備することは困難です。

有害サイトのURLは頻繁に変更

有害サイト、特にポルノサイトのURLは頻繁(ひんぱん)に変更されます。これに対して、常に最新の正確なURLリストを維持することは非常に困難です。

URL リストの更新が頻繁になる

URLリストは更新が命、URL方式を採用している企業は、その更新周期を売りにしています。更新の頻度が2時間に1回という企業もあります。常にデータベースを最新にするため、多くの人的リソース、物的リソースが必要で、もし更新が中断されると障害が発生します。

2.キーワード方式

キーワード方式では、ある特定の単語をプログラムで監視し、その単語を含んでいるWebサイトへのアクセスをブロックします。不適切な単語や、見せるべきでない単語が存在するWebサイトをブロックします。

問題点としては、、キーワード方式だけでは適切なフィルタリングはできないことです。
単語が多すぎると問題のないサイトまでブロックしてしまい、単語が不十分だと有害なサイトをブロックできません。
フィルタリングソフトでは、性能を向上させるために、最小限のキーワード方式を使用していることが多いです。

3.文脈解析

文脈解析では、Webサイトを解析し、不適切な内容が含まれているかどうかをその場で決定して、Webサイトの表示を許可、ブロックします。高度な言語学的アルゴリズムにより、文脈から理解し、複数の単語から内容を分類します。

文脈解析を使えば、「ポルノ」でも、ポルノ依存症の問題点を議論しているか、ポルノ映像を表示しているサイトかを判別することができます。また、「胸(ム
ネ)」でも、乳がん(ムネの癌)か、チキンのムネ肉の料理方法が載っているサイトか、ポルノ映像の乳房(ムネ)が載っているページかも判別することができ
ます。

文脈解析は一定のアルゴリズムで機能するので、人間が行うURL 方式よりもはるかにブレがありません。文脈解析では、アルゴリズムがいつも同じ結果を導き出すので、人間が行う手法につきものの主観が入る余地がありません。

20080421.jpgフィルタリングソフトNetNanny(ネットナニー)は、文脈解析よりも更に進化したダイナミックフィルタリング方式を採用しています(開発著作権保持、特許出願中)。

ダイナミックフィルタリングエンジンは、ユーザがWebサイトにアクセスしようとした瞬間、インターネットサイトの内容を文脈から分析し、内容を分類します。
表示されているWebサイトの内容を解析するのに加え、まだ表示されていない膨大な量のデータ(そのサイトに埋め込まれたリンク先のデータ)も解析します。

高度な技術によるNetNannyで、ネット上に無数に作られる未知の有害サイトに対しても、お子様のサイトアクセスをブロックすることができます。(NetNannyの詳細はこちら)