書き込みチェッカーの仕組みについて
判定条件
個人情報の電話番号とメールアドレスのチェックは、パターンマッチにて判断しています。
それ以外は基本的に、NGワードの単純なテキストマッチにて判断しています。
形態素解析とかはしてません。(時間があればそういうのにも対応したいと思います)
リストについて
放送禁止用語については、monorochさんのものを利用しています。
(それらのリストについての権利を主張される人がいましたらinfo@studio15.jpまでご連絡下さい)
それ以外のリストについては自前で作成しています。(今のところ非公開ですが、そのうち公開するかも知れません)
今後の課題など
- マッチした文字列として正規表現がそのまま出てくる場合があるので何とかする。
- XMLを綺麗に書く。
- 「血の海にしてやる」みたいな抽象的な表現にも対応したい。
- 電話番号にマッチする正規表現の書き方がかなり適当なので、もうちょっと正しくてシンプルなヤツを考える。
- 個人名のチェックを出来るようにする(自由に使える、日本人の名字と名前のリストが必要)
- 放送禁止用語の正確性が不明なので、NHKなどの放送禁止用語リストを正式に利用できる方法を考える。