この論文を読んだよっていうのを気軽に投稿して、それをもとにマッチングできるようなサービスがあったら流行ると思いませんか?

 ということを数日考えていたのですが、一からSNSを作ろうとするととてもハードルが高いです。そこでDOIなどの識別コードをハッシュタグにしてTweetするという方法を思いつきました。同じハッシュタグをつけて投稿したり、自分の読んだ文献を読んだ人がいたらいいね👍したりすることで、同じような興味を持っている人たちで集まろうという魂胆です。

 ですが、オンラインのコンテンツにはDOIがあるんですが、調べてみるとオフラインのコンテンツについてはどうもそういうものが十分整っていないと感じました。そこでどうやったらこういうものを一意に識別できるか考えてみました。結論から言うと、オフラインのコンテンツはISBNにページ数を加えた番号で識別しようというものです。

目次

この記事で分かること

  • 識別コードって何?
  • URL、DOIって何?
  • オフライン文献の識別コードにはどんな問題があるの?

そもそも識別コードって?

識別コードとはその名の通り、ある物(情報)に対して、それをその他の物から識別するために付与されるアルファベットや数字などのコードのことです。これは非常に一般的な道具でしてその用途は今回の記事で扱うような文書の管理に限るものではありません。

例えば、薬局でお薬を買うと大抵の錠剤にはよく見るとアルファベットや文字が刻印・印刷されていると思います。これはその薬がA社の○○という製品であって、B社の△△という製品ではないよということを示す識別コードです。また、例えばスーパーで商品をレジに持って行くと店員さんが機会でピッと読み取ってくれるあのバーコードも、その商品が紛れもなくその商品であって、他の商品ではないということを示す識別コードです。

DOI (Desital Object Identifier)

皆さんご存じの通り、インターネット上には非常に膨大な情報があります。とは言っても、インターネットという何か分からない空気のような或いは雲のような場所に大量の情報が保存されていて、私たちはそれを覗いているというわけではありません。実際には世界中に散らばっているサーバーにそれぞれ情報が保存されています。そして私たちのパソコンとかスマホは都度「○○サーバーさん!あんたの△△っていうディレクトリにある□□っていうファイルの情報を送ってくださいな」という要求をサーバーに送り、その結果得た情報をもとにして、皆さんの目の前の画面にショッピングサイトだとか動画サイトだとかを映してくれてるわけです。ちなみにこの「〇〇サーバーさん!…(ドメイン名) △△ディレクトリにある…(ディレクトリ名) □□っていうファイル…(ファイル名)」のようにしてコンテンツの場所を伝える方法が皆さんご存じURL*1です。これはあるコンテンツの場所に対して一意に与えられているものでして*2、そういう意味でURLも立派な識別コードですね。

*1 実際にはこれらに加えて「こんな通信方法で送って…(プロトコル名)」という情報を含みます。
*2 そうでなければ、田中さんのブログを読もうとしたら、間違って佐藤さんのブログが出てきたという変なことが起きるかもしれません。

しかし、このURLちょっと厄介なところがあります。上に書いたようにURLはあるコンテンツそのものに付与されたコードではなく、あるコンテンツの場所に対して与えられたコードなのです。コンテンツの場所が変わったり、あるコンテンツの入ったファイルの名前が変わったりしたら途端に使えなくなります。「○○サーバーさん!あんたの△△っていうディレクトリにある□□っていうファイルの情報を送ってくださいな」といっても「△△ディレクトリに□□っていう名前のファイルはないぜ、ごめんな」と言われてしまうわけです。勿論、コンテンツを移動させるたびにどこに移動したのかをそのコンテンツにアクセスするであろう人全員にお知らせできればいいんですが、それは難しいことで、なにより面倒です*。

*コンテンツを移動するときは、もとの場所に「ここに移動しました!」として移動先の場所を載せておくという方法もあります。

これは困ったぞというわけで立ち上がったのがDOI財団の方々です。彼らの考えは「URLが更新されることは仕方ない、問題はそれがきちんとコンテンツと結びついていないことだ!」というものでした。そこでコンテンツに対して一意にコード(DOI)を付与し、それとそれらが今どこにあるのかという情報つまりURLをセットで保存・管理することにしたのです。これをDOI DB(データベース)といい、その情報はDOI登録機関(正確にはその会員たち)によって最新の状態に保たれています。こうすれば私たちは最新のURLが分からなくても、DOIさえ覚えていれば「そういえばこのコンテンツって今はどこにありますか?」ということをDOI DBに尋ねて「あー、それは今はここにあるんだよ。」として最新のURLを教えてもらい、欲しいコンテンツに容易にアクセスできるという訳です(図1)。

図1)DOI Databaseが最新のURLを管理・運用する仕組み

このようにURLの一過性を克服してコンテンツへの恒久的なアクセスを保障するということは特に学術論文の分野などで非常に重要とされ、広く活用されています。だって「ここから引用しました」って書いてあるからリンク先にとんでみたけどもうそこにはそんな論文はなかったってなったら困りますもんね…

各種データベースの識別コード

以上、オンラインのコンテンツを識別する画期的な方法であるDOIについて紹介しましたが、オフラインのコンテンツ(紙の論文や書籍、新聞など)はどうでしょうか。オンラインのコンテンツとは違い、場所が重要な訳ではないですから、きちんとコンテンツに一つ一つコードを割り当てていけば比較的簡単に識別コードが作れるようにも思えます。しかし、実際はそうでもありません。

下の画像(図2)をご覧ください。CiNiiという論文データベースで「名詞句のモダリティ」という論文を検索した結果です。これだけ見ると非常に素直な人は「ほぉー同じ名前の論文が4つあるのだ」と思われるかもしれませんが、実際はそうではなく全く同じ論文が別の4つのデータとして登録されてしまっているのです。勿論その分識別コード(Nii論文ID)も4つ与えられています。これじゃ識別コードとして機能していませんね。膨大な図書資料に重複なくコードを付けていくという作業は口で言うより遙かに難しく、面倒なようです。

図2)CiNiiで「名詞句のモダリティ」という論文を検索した結果。同一の論文が4件ヒットする。

もう一つ、当たり前ですがあるデータベースの識別コードはそのデータベースの中でしか使うことができません。そのためせっかくある本の一つの識別コード例えば国語研の文献IDを知っていても、国語研のデータベースが持っている情報つまり、記事の著者・タイトル・書籍の編集者・書籍のタイトル・書籍の総ページ数・書籍の出版社・書籍の出版年などしか分かりません。それだけ分かれば十分じゃないかというツッコミが入りそうですが、ようはどのデータベースでも共通のコードを使えたらそれが一番いいのになということです。

ISBNを使いませんか

実は世界中の大体の書籍*に付与されている共通の識別コードというものがあります。それがISBN(International Standard Book Number)です。本を後ろから開けば数ページのところ(奥付と言います)に著者名、書名、出版社などと一緒に大抵記載されている13桁又は10桁の数字がそれです。このコードはある本が絶版になっても使い回されることはなく、ある本に対して一意に与えられています。

*実際には書籍以外にもCD-ROMやマイクロフィルムなどにも付与されています。

じゃあ、オフラインのコンテンツの識別コードはこれでいいじゃないかと思われた方が多いのではないでしょうか。実際、ほとんどの論文データベースがISBNの情報を保存しており、ISBNで書籍などを検索することが可能です。しかし、ISBNは全体としての1冊の書籍に対して与えられたものなので、その中の章を一意に特定することはできません。これは複数の論文を集めてできた論集などでは結構致命的なことです。

やっぱり書籍の中の論文などには独自の識別コードを振るしかないのでしょうか。いや、そうではないというのがこの記事の趣旨です(やっとかよ)。ISBNで書籍までは特定されているのだから後はページ数の情報を追加するだけでそのコンテンツを特定することができます。5ページ目が存在しなかったり23ページ目が3枚あるなんて本は普通はありませんから、ページ数は一意なコードとして働いてくれます。例えば田窪行則 (1989)の「名詞句のモダリティ」. はISBNが4-87424-035-6である本の211から233ページに掲載されているのですから、その識別コードは4-87424-035-6-211-233として表わすことができるのです。

各種データベースはこのようなISBNをもっと活用して情報を一意に、それでいて容易に識別できるようにすればいいのになと思います。今回紹介したようなISBN+ページ数の識別コードをBOI(Book Object Identifier)かなんか名前をつけて、参考文献の末尾につけるというのが広まれば文献を見つけるのが随分楽になって、それに関連する交流も盛んになるんじゃないでしょうか。皆さんBOI使ってみませんか?(^0^)

参考文献(読書紹介)

薬についてるアルファベット・数字って何?
日本製薬団体連合会. (2005). “識別コードの定義及び留意事項等”. http://www.fpmaj.gr.jp/jisyu/documents/teigi_000.pdf

DOIって何?
ジャパンリンクセンター(JaLC). (n.d.). “DOIとは|JaLCの概要|ジャパンリンクセンター(JaLC)”. https://japanlinkcenter.org/top/about/about_doi.html