OpenAIは2026年4月22日、Privacy Filterを正式リリースした。これは非構造化テキストから個人識別情報(PII)を文脈を考慮して検出・脱敏する、軽量オープンウェイトAIモデルである1。
技術アーキテクチャ
Privacy Filterはスパンデコーディングを伴う双方向トークン分類モデルであり、自己回帰的予訓練チェックポイントをベースに再設計されている1。
- 調整ロジック:元の予訓練モデルの「言語モデリングヘッド」を「トークン分類ヘッド」に置き換え、教師あり分類目的で事後訓練を実行
- 推論ロジック:トークンを逐次的に生成するのではなく、入力シーケンスを単一回の順伝播でラベル付けし、制約付きビタビ(Viterbi)アルゴリズムを用いて境界が連続したPIIスパンをデコードする
コア仕様
| パラメーター項目 | 詳細 |
|---|---|
| パラメーター数 | 総パラメーター15億、アクティブパラメーター5000万(軽量、実運用環境に適合) |
| コンテキスト対応 | 最大128,000トークンの超長テキスト入力をサポート |
| 検出分類 | 計8クラスのPIIスパン検出(後述) |
| デコード方式 | BIOESスパンマークデコードにより、境界が明確でフォーマットが整った脱敏結果を生成 |
検出タクソノミー
モデルは8つのPIIカテゴリーを検出する1:
| ラベル | 対象 |
|---|---|
private_person | 個人身份関連PII(氏名など) |
private_address | 物理アドレス |
private_email | 電子メールアドレス |
private_phone | 電話番号 |
private_url | 個人関連URL |
private_date | 個人関連日付 |
account_number | 各種アカウント番号(クレジットカード、銀行口座など) |
secret | 秘密情報(パスワード、APIキーなど) |
性能
標準ベンチマーク:PII-Masking-300kベンチマークにおいて、初期F1値は96%(精度94.04%、リコール98.04%)に達する1。ベンチマーク内のアノテーション問題を修正後、F1値は97.43%(精度96.79%、リコール98.08%)に向上し、同ベンチマークのSOTA(最高性能)水準に達する1。
ドメイン適応性:少量のドメイン・ラベル付きデータを用いた微調整により、ターゲット・ドメインのF1値を54%から96%へ跳ね上がらせることができる1。
利用可能性とライセンス
- ライセンス:Apache 2.0ライセンスを採用し、実験・カスタマイズ・商業展開をサポート1
- ダウンロード経路:HuggingFaceおよびGitHubで公開1
- モデルカード:アーキテクチャ、ラベル体系、デコード規則、想定ユースケース、評価設定、既知の制限事項を含む詳細PDFが同時公開されている1
機能的制限
本モデルは「プライバシー・バイ・デザイン」体系の構成要素であって、専門的なコンプライアンス・監査フローに代わるものではない1:
- 匿名化ツールではなく、コンプライアンス認証効力も持たない。高感度シーン(法務、医療、金融など)における方針審査と人的監査を代替することはできない。
- 検出効果は訓練に用いたラベル体系と決定境界に依存する。異なるプライバシー方針を持つ機関では、追加のドメイン評価や微調整が必要になる可能性がある。
- 誤差の可能性:珍しい識別子や曖昧な個人言及を漏検する場合がある。コンテキストが限定的な(特に短テキスト・シーケンスの)シナリオでは、過剰脱敏または脱敏不足が発生する可能性がある1。
意義
Privacy Filterのリリースは、OpenAIがオープンソース・コミュニティーに対して実用的なプライバシー・インフラを供出し始めたことを示している。軽量・高性能・ApacheライセンスのPII検出モデルを公開することで、OpenAIは、第三者APIへユーザーデータを送信できない(または望まない)開発者がプライバシー尊重型AIアプリケーションを構築するための障壁を引き下げた。
5000万アクティブ・パラメーターという数値は、同種モデルの中でも極めて軽量な部類に属し、レイテンシーとコストに配慮が必要な高スループット生産パイプラインにおいて顕著な優位性を持つ。また、自己回帰的予訓練チェックポイントを改変して双方向アーキテクチャを実現した点も、意識的な設計選択である:分類精度は、たとえベース・モデルが自己回帰的であっても、双方向コンテキスト aware nessから恩恵を受ける。