山市良のえぬなんとかわーるど（アーカイブ）: FCI と iFilter

2009/11/11

FCI と iFilter

（2009/12/16 DocuWorks の記述を修正。Windows Search は DocuWorks に対応できますが、FCI では検索できませんでした）

「Windows Server 2008 R2テクノロジ入門」の第 13 章で FCI（File Classification Infrastructure）について説明しています。FCI を使うと、ファイルサーバー上のファイルを、文字列や .NET 正規表現を使ってファイルの内容で分類し、カスタムプロパティを設定できます。たとえば、“社外秘" という文字を含むファイルに対して、「社外秘：はい」というプロパティを設定できます。これが FCI の［分類管理］という機能です。また、このカスタムプロパティを条件に、アーカイブやカスタムタスクをスケジュール実行できます。これが、FCI の［ファイル管理タスク］機能です。

本書では、単に iFilter を使用したテキスト抽出が可能と書いていますが、既定では、プレーンテキスト、HTML ファイル、XML ファイル、Office バイナリ（.doc、.xls、.ppt など）、リッチテキスト、Wordpad ドキュメントを識別できます。Windows Server 2008 R2 の新機能である［Windows TIFF iFilter］をインストールすると、TIFF イメージに対して OCR （光学式文字認識）を実行し、イメージに含まれる文字列を認識できます。さらに、Microsoft フィルタパック、Adobe PDF iFilter、~~DocuWorks Content Filter~~ を追加インストールすることで、Office Open XML 形式（.docx、.xlsx、.pptx など）、Adobe PDF （.pdf）~~、DocuWorks 文書 (.xdw、.xbd)~~ のサポートを追加できます。一太郎 iFilter は、32 ビット版しかないので、64 ビットの R2 ではうまく動かないようです。DocuWorks 文書 (.xdw、.xbd) は、Windows Search は対応していますが、FCI からは利用できないようです。

FCI については、本書より後に書いた、マイクロソフトのこちらのサイトをうほうがわかりやすいかもしれません。ただし、こちらのサイトのサードパーティ製 iFilter のリンク先（以前は SharePoint の iFilter サイトでした）が変わってしまったようです。PDF と DocuWorks の iFilter はこのページのリンクから入手できます。

山市良のえぬなんとかわーるど（アーカイブ）

2009/11/11

FCI と iFilter

Book 2011

Book 2009