2009/11/11

FCI と iFilter

(2009/12/16 DocuWorks の記述を修正。Windows Search は DocuWorks に対応できますが、FCI では検索できませんでした)

「Windows Server 2008 R2テクノロジ入門」の第 13 章で FCI(File Classification Infrastructure) について説明しています。FCI を使うと、ファイル サーバー上のファイルを、文字列や .NET 正規表現を使ってファイルの内容で分類し、カスタム プロパティを設定できます。たとえば、“社外秘" という文字を含むファイルに対して、「社外秘:はい」というプロパティを設定できます。これが FCI の[分類管理]という機能です。また、このカスタム プロパティを条件に、アーカイブやカスタム タスクをスケジュール実行できます。これが、FCI の[ファイル管理タスク]機能です。

本書では、単に iFilter を使用したテキスト抽出が可能と書いていますが、既定では、プレーン テキスト、HTML ファイル、XML ファイル、Office バイナリ (.doc、.xls、.ppt など)、リッチ テキスト、Wordpad ドキュメントを識別できます。Windows Server 2008 R2 の新機能である [Windows TIFF iFilter] をインストールすると、TIFF イメージに対して OCR (光学式文字認識) を実行し、イメージに含まれる文字列を認識できます。さらに、Microsoft フィルタ パックAdobe PDF iFilterDocuWorks Content Filter を追加インストールすることで、Office Open XML 形式 (.docx、.xlsx、.pptx など)、Adobe PDF (.pdf)、DocuWorks 文書 (.xdw、.xbd) のサポートを追加できます。一太郎 iFilter は、32 ビット版しかないので、64 ビットの R2 ではうまく動かないようです。DocuWorks 文書 (.xdw、.xbd) は、Windows Search は対応していますが、FCI からは利用できないようです。

FCI については、本書より後に書いた、マイクロソフトのこちらのサイトをうほうがわかりやすいかもしれません。ただし、こちらのサイトのサード パーティ製 iFilter のリンク先(以前は SharePoint の iFilter サイトでした)が変わってしまったようです。PDF と DocuWorks の iFilter はこのページのリンクから入手できます。