コラム

あの言葉ってどれくらい、どんなふうに使われてきたの? ―Google Books Ngram Viewerの活用―

1. モチベーション

最近はやや固めのコラムが続いていたような気もするので、今回は比較的気軽な話題を提供してみたいと思います。

研究や業務はもとより、日常生活においても、「あの言葉ってどれくらい使われてきたの?」、「そして、それはどんなふうに?」といった疑問が生じることは少なからずあるかと思います。そんなとき、みなさんだったらどうするでしょうか?今日では多くの場合、辞書やweb百科事典などが真っ先に挙げられることでしょう。

しかし、ある言葉がいつから(=時代)、どれだけ使われてきたのか(=頻度)、そして、その変化に関心を持っている場合には、これらのツールは不十分に思えてしまうかもしれません。また、自分が関心を持っている言葉がいくつもあり、それらの用法の変化を同時に検討するとなると、問題はより複雑化してしまいます。

2. Google Books Ngram Viewerの活用

そうした問題に1つの回答を与えてくれるのが、Google Books Ngram Viewerというサービスです(以下、Ngram Viewer)。Ngram Viewerでは、Google Booksに登録されている蔵書を対象として、特定の言葉の出現頻度を出版年ごとに追うことができます。

実例を交えてみてみましょう。たとえば、「昔は宗教が人々の生活にとって重要だったが、それは科学によって取って代わられた」というような、一般に「世俗化」といわれる現象に興味を持っている人がいたとします。1) なお、この宗教と科学の例示は、『カルチャロミクス:文化をビッグデータで計測する』に拠っています。ご関心のある方はそちらをご覧ください。

このケースでは、「宗教」と「科学」が重要なキーワードであり、それらキーワードがどのように時代変化するのかに関心があるといえます。この場合、Ngram Viewerでは、「宗教(Religion)」と「科学(Science)」をカンマでつないで検索窓に入力してやれば、簡単な答えを得ることができます(図1)。年代や検索対象とする蔵書などの詳細なオプションについては、こちらを参照してください。

図1 ReligionとScienceの出現頻度の推移
図1 ReligionとScienceの出現頻度の推移

3. Ngram Viewerはどんなときに使えるのか?

Ngram Viewerは、16世紀以降出版されてきたGoogle Booksの蔵書を対象としているという意味で、優れた規模を有しているといえます。そのため、「宗教」と「科学」の関連といった、時間・空間的な意味での「大きな問い」について検討するうえでは有効なツールとなるのかもしれません。

一方で、いくつか考えなければいけない点もあります。そのうちの1つは、文献上に出現する言葉をどのようなものとしてみなすのかという問題です。これは、「宗教」と「科学」の例では、人々の生活において重要とみなされている言葉が文献に登場するという前提を置いていましたが、この前提をどのように考えるのかということでもあります。たとえば、文献などの水準ではなく、人々の「生活知」の水準で特定の言葉がどのように用いられているのかに関心がある場合、Ngram Viewerは力不足になってしまいます。

では、人々の日常生活に近いところで使われる特定の言葉に関心がある場合は、どうしたらよいのでしょうか?特に、研究や業務で高等教育に携わる側からすれば、「普段づかい」の言葉から高等教育を捉えてみたいと考えることでしょう。そこで次回のコラムでは、Rを用いたTwitterデータの取得について書いてみたいと思います。


参考文献

Erez, Aiden & Jean-Baptiste Michel, 2013, Uncharted: Big Data as a Lens on Human Culture, New York: Riverhead Books(=2016,阪本芳久訳『カルチャロミクス―文化をビッグデータで計測する』草思社.)

(日本学術振興会 特別研究員 渡辺健太郎)

References   [ + ]

1. なお、この宗教と科学の例示は、『カルチャロミクス:文化をビッグデータで計測する』に拠っています。ご関心のある方はそちらをご覧ください。