『僕にはAIの言葉がわかる』その1:出版社はAI用フォーマットを用意しておくべき?
の続きです。はあ、一石二鳥は間違ってないんすけどね。こういうとこだぞ。
では、出版社として何を準備しておくべきか
前のエントリで述べたとおり、
AI時代において出版社が向き合うべき課題のなかで、
「学習させるかどうか」を判断する以前に、判断できる状態を持っているかという点も同じくらい大事では、という話をしました。
ここからは、その前提に立って、
では実務として何を準備しておけるかな、を考えてみたいと思います。
課題の整理
AIに書籍のコンテンツを学習素材として提供する場合、
出版社はどのような形でコンテンツを持っておくべきなのでしょうか。
これは技術の話というより、資産管理と選択肢の問題ですね。
- どの形式で持っていれば
- どこまで自分たちでコントロールでき
- どんな話が来たときに、どう対応できるのか
その余地を持っていたい。できたら負担少なくすんなりいきたい。その辺がわからない。
どうせやるなら副産物もつくれたらいい
WPやnoteを、出版社の電子書籍ストア兼CMSと見立てて、
書籍の本文を見出し・本文・画像としてアップしておく。
というのを考えてみました。これは、noteがAIにコンテンツを提供することで、クリエイターに利益を還元する、という 話がありましたので、という事は、ノートに記述されている形式はAIと相性が良いのではないかと思ったためです。
そうすることで、
- 構造化されたテキストを「AI用に保持」できる
- 同時に「新しい販売チャネル」にもなりうる
という仮説です。
AIからの対価がわからない以上、コストをかけるのは抵抗がある
だったら、売り上げを作る名目でやってみるならコストはかけやすい
ただし、いくつか考えるポイントがあります。
AIフレンドリーな形式とは何か
私のAIのアシスタントきのこちゃんによると、
「AIにとって扱いやすいのは、特別な形式というよりも、次の条件を満たすデータです。
- 見出しと本文の区別が明確である
- 章や節といった構造が保たれている
- テキストとして素直に取り出せる
この点で言えば、
PDFやEPUBは「読む・配布する」には適していますが、
再利用や学習、条件交渉の起点としては弱い。」
とのことです。
一方、WPやnoteのように
見出し(h2、h3)と本文(p)が明確に分かれた形は、人にも機械にも読みやすい半構造化テキストです。
その意味で、
WPやnoteに書籍コンテンツを分解して載せておくことは、AIフレンドリーな形への第一歩として十分に意味があります。
なんだそうです。いや、なんか悪くない感じじゃあないですか。
ただし「半構造化」で止まるという前提も必要
一方で、
WPやnoteに載せただけで「AI用として万全」かというと、
そこまではいえません。
- 本文とコラム、注の区別
- 1冊の中での内容の位置づけ
- AIに学習させるにあたっての利用条件や制約
こうした情報は、
通常のCMS上では指定しませんし、付記もしませんね。
逆にいえば今の段階でそこまで固める必要はないともいえるでしょう。
むしろ、「後から意味や条件を足せる状態で仕上げを持っている」
状態であることで、いいんじゃないでしょうか。
今、出版社が持っておくべきフォーマット
現実的に考えると、
今この段階で揃えておくべきものは、次の3点です。
1つ目は、これまでどおりの
InDesignの制作データです。
これは印刷用に持っているものと思います。
2つ目が、今回の話のメインになりますが、
MarkdownやシンプルなHTMLといった中間フォーマットです。
これは配信や販売の最終形ではなく、
CMSにも、将来のAI活用にも流用できる「半完成のデータ」です。
iPS細胞のようなものとでも、いや、違うな。
3つ目は、
書名・著者・ISBNといった
**書誌メタデータ(CSVレベルで十分)**です。
なんでここだけマークしてくるんでしょうか?
この3点が揃っていれば、
具体的なオファーが来たときに、
このデータをこうすれば提供できるかな、と話が進みやすくなると思います。
必要な手順とリソース(やりすぎない前提で)
重要なのは、
この準備を「大きなプロジェクト」にしないことです。
なにせ提供形式はまだ決まっていないわけですから。
基本的な考え方は、
人が判断するのは一度だけにしましょうね、という設計です。
- InDesignの段落スタイルをもとに
- 見出し/本文/注といった最小限の区別だけを回収し
- HTMLやMarkdownに落とす
ここで新しい編集判断を入れない。ありのままのものを使うことがポイントです。
人がやるのは、
構造が壊れていないかを確認する程度。
本文を直したり、意味付けを増やしたりしない。
必要なリソースも、
特別なシステムや大規模開発ではありません。
- 既存の制作データ
- CMS(WPやnote)
- 簡単な変換ルール
ぐらいにしとかないと、手がかかってしまいます。
WPやnoteを使う意味の再確認
こうして整理すると、
WPやnoteを使う意義は2つあります。
1つは、
構造化テキストを日常業務の延長で保持できること。まあ、延長ではあるのですが。
もう1つは、
それ自体が販売チャネルになりうること。というか、コンバートはそのための投資という名目で成立させる方便、じゃねえか、まあいいじゃないですか。
AI対応のためだけに用意した仕組みではなく、通常の出版活動と地続きで使える点が重要です。会議での説得材料です。なんか思ったこと全部いっちゃってますけどいいんでしょうか。
まとめとして
この段階で出版社がやるべきことは、
AI向けの仕様を決めることではありません。
- 構造を保った形で本文を持つ
- 後から条件を足せる余地を残す
- 自分たちの手元で説明できる状態にする
その準備をしておくことです。
思いついてしまって書いておきたかったことはここまでとなります。
次はおまけといいますか、この状態ってなんか経験があるなあと思ったことについて書いてみたいと思います。



コメント