これはどういう技術なんだろう?

http://journal.mycom.co.jp/news/2008/11/19/026/index.html
これは中々面白そうですが、誤検知とかどうなんでしょう?


ぱっと見、全く異なる文章……「さすがは富士通。導入前は社員の離職率も高く、社内の雰囲気も最悪、ユーザーのサポートは各社員が別々に担当し全く連携がなっていなかったのに、富士通社製の『すごいぐるーぷうぇあ 2.0』を導入した途端、全てがうまく行くようになり、宝くじには当たる、彼女は出来るととても幸せな日々を送れるようになりました」といった記事もヒットしてしまいそうですけど大丈夫なのでしょうか?
あるいは script タグ内に、javascript のコメントで /* 富士通のホームページで見たソースをパクったらバグだらけだったよ! ……と思ったら 1996 年の記事だったよ!! よく嫁自分orz */ と書いたりするのはどうでしょう?


人間の目には明らかなものであっても、機械で自動的に判断させようとすると難しいものが多々あります。ええ、本当に大変なもんです。というか、日本語フリーダム過ぎ(笑)
えー、そんなわけで、技術者としては上記エンジンの精度がどれほどのモノなのか、大変興味があります。
これ、検知サービスとして稼働させる予定なのかなぁ? 社内情報の検索エンジンとして使うと便利そうだけどどうなんでしょう?? ……さすがにそれは既存のインデックス化する検索エンジンの方が有利なのかな???


(なお、文中、富士通絡みの例文が多いのは、上記エンジンを開発しているのが富士通研らしいので、これだけ書いておいたらひょっとしてデバッグ中の社員さんがヒットさせたりするかなぁ? と思って書いてみただけです。ヒットするようなら……改善の余地があるかもしれない(笑))