異業種へ飛び出す司書たち

司書経験が生きるAI分野:元司書がデータセットキュレーションで活躍

Tags: データセットキュレーション, AI, 情報組織化, キャリアチェンジ, データ活用

元司書が切り拓く、AI開発を支えるデータセットキュレーションの世界

図書館司書としての専門性は、書籍や資料の情報管理にとどまらず、情報そのものの構造化、分類、組織化といった普遍的なスキルに根差しています。これらのスキルは、一見司書とは無関係に思える情報技術やデータ活用といった異分野でも、非常に高い価値を発揮することがあります。今回は、図書館司書から転身し、AI開発に不可欠な「データセットキュレーション」という分野で活躍されている方のストーリーを紹介します。

図書館での経験とキャリアチェンジの背景

今回お話を伺ったのは、元公共図書館司書の田中さん(仮名)です。田中さんは約5年間、地域の公共図書館で司書として勤務されていました。主な業務は、利用者対応、レファレンスサービス、図書の選書・購入、受け入れ、分類・目録作成、排架、除籍など、多岐にわたります。

「図書館の仕事は、人々の情報ニーズに応え、必要な情報を効率的に提供するためのシステムを構築・運用することだと感じていました」と田中さんは語ります。「特に、新しい図書を受け入れた際に、どのような分類を付与し、どのような件名をつけて、利用者が探しやすくするか、という作業は、まさに情報の構造化や組織化そのものです。また、レファレンスでは、利用者の漠然とした質問から真のニーズを引き出し、多角的な情報源から最適な答えを見つけ出すスキルが磨かれました」。

キャリアチェンジを考え始めたのは、図書館を取り巻くデジタル化の波を肌で感じ始めた頃でした。「電子書籍サービスの導入や、図書館システムの刷新など、情報技術が司書の業務に深く関わるようになっているのを見て、私自身の情報技術への関心が高まりました。同時に、図書館の外には、自分の情報管理や組織化のスキルを活かせる、もっと多様な情報活用の現場があるのではないか、と考えるようになりました。特に、近年注目されているAIやデータサイエンスの分野で、情報の専門家である司書のスキルがどのように役立つのか、強い興味を持つようになったのが転職の直接的なきっかけです」。

現在の仕事内容:AI学習用データセットのキュレーション

現在、田中さんは都内のIT企業で、AI開発に関わるデータチームに所属し、「データセットキュレーション」業務を担当されています。データセットキュレーションとは、AI(特に機械学習モデル)の学習に用いるためのデータを、特定の目的や要件に合わせて収集、選別、整理、評価、管理する一連のプロセスを指します。

「私の主な業務は、AIエンジニアやデータサイエンティストが必要とする高品質なデータセットを提供することです」と田中さんは説明します。「例えば、画像認識AIを開発する場合であれば、学習に必要な大量の画像を収集し、それぞれの画像に写っているものが何か(例:猫、犬、車など)を正確に識別できるようにタグ付け(アノテーション)するための仕様を設計したり、収集したデータに偏りがないか、ノイズが多くないかといった品質評価を行ったりします。また、データがどのような条件下で収集されたか、どのようなライセンスで利用可能かといったメタ情報を整備・管理することも重要な業務です」。

この仕事は、単にデータを集めるだけでなく、AIモデルが「学習」しやすいように、データの構造、ラベル付けの方法、品質基準などを設計し、維持していく必要があります。

司書経験がデータセットキュレーションで具体的に活かされている点

田中さんは、データセットキュレーション業務の多くの場面で、司書時代に培ったスキルや考え方が役立っていると語ります。

情報の分類・組織化、構造化スキル

「最も直接的に役立っているのは、情報の分類・組織化スキルです」と田中さんは強調します。「図書館で図書を分類する際、書籍の内容を深く理解し、既存の分類体系(NDCやLCCなど)に基づいて適切なコードを付与し、利用者が目的の情報を効率的に見つけられるように構造化しますよね。この考え方は、データセット内のデータを分類し、意味のあるカテゴリに整理し、必要であれば階層構造を持たせるという作業にそのまま応用できます」。

例えば、画像認識AIの学習データセットを構築する際に、どのようなオブジェクトカテゴリ(犬、猫、車、信号機など)を定義し、それぞれのカテゴリをさらに細分化(例:犬の中でも柴犬、プードルなど)する必要があるか、といった分類体系の設計を行います。この際、司書時代に培った網羅性、排他性、明確性といった分類原則への理解が、曖昧さのない、効果的なデータ分類体系の構築に役立っているそうです。

メタデータ管理と品質へのこだわり

「図書館では、図書の書誌情報(著者、タイトル、出版者、出版年など)や、内容を示す件名、分類コードといったメタデータを正確に作成・管理することが非常に重要です。このメタデータが、検索や管理の基盤となります」と田中さんは続けます。「データセットキュレーションにおいても、個々のデータ(画像ファイル、音声ファイルなど)に付随するメタ情報(撮影日時、GPS情報、データ形式、作成者、アノテーション担当者、品質評価結果、ライセンス情報など)を正確に付与し、体系的に管理することが不可欠です」。

どのようなメタ情報が必要か、どのように表現すれば後々利用しやすく、かつデータの信頼性を保証できるか、といった設計や実務において、司書時代のメタデータに関する知識と、正確性・標準性へのこだわりが活きているとのことです。また、データの「品質」に対する厳格な視点も、司書が所蔵資料の信頼性や正確性を評価する際に養われるものと共通しています。

利用者(AIモデル/エンジニア)ニーズの理解

「レファレンスサービスを通じて、利用者の表面的な要求だけでなく、その背後にある真の情報ニーズを深く理解するスキルが身につきました」と田中さんは語ります。「現在の業務では、AIエンジニアやデータサイエンティストがどのようなAIモデルを開発しようとしていて、そのためにはどのような特性を持つデータが、どのくらいの量、どのような形式で必要なのか、といったニーズを正確に聞き取り、理解する力が求められます」。

データセットは、AIモデルという「利用者」が効果的に学習できるように設計する必要があります。司書が利用者の情報探索行動や認知特性を考慮して蔵書を組織化するように、データセットキュレーション担当者はAIモデルの学習プロセスや特性を理解し、それに最適化されたデータを提供することが求められます。この「利用者の立場に立って情報を組織化する」という司書の根源的な姿勢が、データセット設計において非常に重要になっているそうです。

プロジェクト進行管理とコミュニケーション能力

データセットの構築は、複数の関係者(データ収集担当者、アノテーター、AIエンジニア、法務担当者など)が関わるプロジェクトとして進行することが多いです。「図書館でイベント企画やシステム導入に関わる中で、様々な部署や外部業者と連携し、プロジェクトをスケジュール通りに進めるための調整力やコミュニケーション能力が養われました。これは、現在の業務でチーム内外の関係者と密に連携を取りながら、データセット構築プロジェクトを円滑に進める上で非常に役立っています」と田中さんは言います。

キャリアチェンジで直面した課題と学び

異業種へのキャリアチェンジにあたっては、もちろん新たな学びも必要でした。

「最も大きな課題は、やはり情報技術やAI、機械学習に関する専門知識の習得でした」と田中さんは振り返ります。「司書時代にも図書館システムやデータベースは扱っていましたが、AIモデルの仕組みや、データをどのように前処理すればモデルが学習しやすくなるか、といった技術的な側面の理解はゼロからのスタートでした。最初は専門用語も全く分からず、戸惑うことも多かったです」。

この課題を乗り越えるために、田中さんはオンライン講座で機械学習の基礎を学んだり、関連書籍を読んだり、社内のエンジニアに積極的に質問したりと、自ら学ぶ姿勢を徹底しました。「司書時代に培った、必要な情報を自ら探し出し、体系的に理解しようとするリサーチ能力や学習意欲がここでも活かされたと感じています」。

また、IT業界のスピード感や、常に変化し続ける技術への対応も、図書館とは異なる部分でした。「新しい技術やツールが次々と登場するので、常に学び続け、柔軟に対応していく姿勢が求められます。これは大変でもありますが、同時に新しい発見や成長の機会でもあり、やりがいにつながっています」。

現在の仕事の魅力と今後のキャリア展望

田中さんは、現在のデータセットキュレーションの仕事に大きな魅力とやりがいを感じています。

「司書として人々の情報アクセスを支援することに喜びを感じていましたが、今はAIという形で、より多くの人々や社会全体に貢献できる可能性に魅力を感じています。自分が関わったデータセットを使って開発されたAIモデルが、新しいサービスを生み出したり、社会課題の解決に役立ったりするのを見ると、大きなやりがいを感じます」と語ります。

また、司書として培った情報管理や組織化のスキルが、AIという最先端の分野で高く評価され、価値を生み出せているという実感も、大きな自信につながっているそうです。

今後のキャリア展望としては、データセットキュレーションの専門性をさらに深めるとともに、データガバナンスやAI倫理といった分野にも関心を広げていきたいと考えているとのことです。「司書は、情報の公正なアクセスや利用に関する倫理的な問題にも向き合ってきました。AIにおけるデータの偏り(バイアス)やプライバシー侵害といった倫理的な課題は非常に重要であり、司書的な視点から貢献できる部分があるのではないかと考えています」。

キャリアに悩む方へのメッセージ

最後に、キャリアに悩む元司書の方や、自身の専門性を異分野で活かしたいと考えている方へのメッセージを伺いました。

「司書経験は、皆さんが思っている以上に多様な分野で活かせるポテンシャルを秘めています。特に、情報の収集、整理、分類、分析、そしてそれを必要とする人(またはシステム)に届けるという一連のプロセスに関するスキルは、どのような業界・職種でも求められる汎用性の高いものです」と田中さんは力強く語ります。

「もし情報技術やデータ活用といった分野に興味があるなら、司書として培った情報管理や組織化のスキルが、これらの分野でどのように応用できるかを考えてみてください。例えば、データベースのスキーマ設計、コンテンツ管理システムの分類設計、あるいは私のようにデータセットのキュレーションなど、司書スキルが活かせる具体的な接点が見つかるはずです」。

また、新しい分野に飛び込むことへのためらいについても触れられました。「未知の分野への挑戦は、確かに不安が伴います。私もそうでした。しかし、司書として培った主体的に学び、課題を解決していく力があれば、新しい環境にも適応し、必ず道を切り拓いていけると信じています。皆さんのこれまでの経験に自信を持ち、ぜひ一歩踏み出してみてください」。

まとめ

元司書の田中さんのストーリーからは、図書館司書として培った情報管理、組織化、分類、レファレンス、そして利用者ニーズ理解といったスキルが、AI開発におけるデータセットキュレーションという最先端の分野でいかに有効に機能しているかが具体的に示されました。情報のプロフェッショナルとしての司書経験は、情報技術の進化する現代社会において、形を変えながらもその価値を発揮し続けています。

今回の事例が、キャリアの可能性を模索する司書経験者や、自身の専門性を多様な分野で活かしたいと考える方々にとって、新たな視点や具体的なヒントとなれば幸いです。