【データ分析】CANPAN団体情報ビッグデータからメインの活動を予測する [2017年11月08日(Wed)]
ビッグデータ分析第2弾。今回は団体情報の分析です。
寄附するときやイベントを探すとき、企業や行政・助成担当者が助成金や協働先提携先を探すとき、自分の関心のある分野の活動をしている団体を探すことがあると思います。 NPOには法律に定められ、定款に書かれた分野があるので、CANPAN団体情報もこれで検索することができますが、この分野、選択が難しい上にみなさん活動が多岐にわたっているので複数選択されており、メインの活動が何なのか分からないのです。 こちらがその分野の主なものです。 子ども、青少年、障がい者、高齢者、外国人、福祉、保健・医療、教育、まちづくり、文化・芸術、スポーツ、環境、災害救援、地域安全、人権、国際協力、男女共同参画、ITの推進、科学技術、経済活動、就労支援・労働問題、消費者保護、市民活動団体の支援、観光、農山漁村中山間、助成活動、食産業、漁業、林業、行政監視・情報公開、行政への改策提言 最初の方は対象者なのに途中から業種っぽくなって、業務内容みたいなのもあったり・・・ これでは重複して当たり前という感じなのです。 例えば、CANPAN団体情報を分野「子ども」で検索したら、そこで表示される団体には子どもメインに活動してそうな団体が見当たらない。一つずつ団体詳細をしっかり読めばなんとなくわかるのですが・・・ こういうことを個人的な主観ではなく、データから分析できないのだろうか。 ということで、今回は「子ども」分野のデータを対象に、団体情報のテキスト分析をすることで、実際のところどんな活動がメインなのかを探ってみたいと思います。 目的・方法: CANPANに登録のある分野「子ども」を選択している218団体のデータから、団体情報の文章項目(団体の概要、活動概要、活動実績)に含まれる単語を抽出し解析して、その団体のメインの活動を予測する。 分析にはKHCoderというフリーのテキスト解析ツールを使いました。 【1】「子ども」ワード出現数団体ランキング 団体情報に「子ども」という単語が出現する数の多い上位団体です。 この層は文章中に計20回以上「子ども」が出現しています。 確かにメインで子どもを対象とした活動をしているところばかりです。 これが出現回数が4・5回となるとこうなります。 福祉や犯罪被害者支援の活動をする団体が混ざってきます。 そして、出現回数が1や0になると ほとんど子ども感がありません。 子どもを分野に選んでいるのに、文章のなかに「子ども」が登場しない団体は全体の4割も(!)ありました。 対象者を限らない活動をしている団体や、将来的に活動を広げていく可能性もある等の理由で、とりあえず選んでいるという団体が多いのかもしれません。 【2】頻出ワードランキング ※「事業」「支援」などの活動を表さないワードは除外してあります。 やはり「子ども」は821回も出現する断とつトップワードです。 そして「福祉」「生活」「相談」「介護」「障害」と続きます。 福祉系の団体が子どもも選んでる傾向がありそうです。 子ども系直結ワードで次に出てくるのは「教育」ですが、出現数は288回で1位と差があります。 やはり「子ども」というワード出現数がメインかどうかに強い影響を及ぼすと考えられるので、この1ワードだけで境界を作ってもある程度予測できそうです。 1の出現数ランキングと照らし合わせてみると、 「子ども」ワードが5コ以上含まれるものは子どもを対象とした活動を中心に実施している可能性が非常に高いが、それ以下は微妙で、0コの場合は子供向けに特化した活動はしていないと予想されます。 ※今回は専用の分析ツールが必要で断念しましたが、複数のワードを対象にできる決定木モデルでやればもっと精度の高い分岐点予測できそうなのでやってみたい。 【3】頻出キーワードの関連性(多次元尺度法) 円の大きいものがよく使われているワード、距離が近いものがよく一緒に(文の中で近くに)使われているワードです。 「子ども」と「学校」はよく一緒に使われるけど、「芸術」と「養育」は一緒には使われないということがわかります。 一部、意味の近さを考慮してグルーピングしなおした部分を点線で囲みました。 そして距離の近いもの同士が7つにグループ分けして色分けされています。(クラスター分析) すると、こんなグループができました。 ※数字はワード出現数 出現数の多いグループ順に、 1.福祉、生活、相談、障害、児童、自立、安心 →これは障害者向けの活動、障害福祉系でしょうか。 2.施設、教育、育成、家族、研修、家庭、啓発、保護、養成、健全、指導、子供、拠点、整備、予防 →難しいですが教育や育成プログラムの提供など教育系でしょうか。 3.子ども、市民、学習、学校、体験、イベント、コミュニティ、働く、NPO、講座、教室、研究、可能 →青緑と緑は距離も意味も近いので1つにまとめました。こども全般といったところでしょうか。 4.交流、住民、子育て、場、発達、就労、放課後、サポート、居場所、親、保育、自然、思う →距離の近かった「放課後」「保育」「思う」をまとめました。居場所系でしょうか。 5.高齢、介護、訪問、デイサービス、ケア、老人、医療、ホーム、居宅、療育、日常 →距離が近かった「高齢」「介護」をまとめました。介護系でしょうか。 6.被害、暴力、犯罪、性、女性 →ここは距離も遠いしはっきり傾向が出てます。犯罪被害ですね。 7.文化、芸術、音楽 →ここも独立性が高いです。文化芸術ですね。 なんとなくですが、こういう種類の活動が主流なのかなと予測できました。 まとめ: 「子ども」分野を選んでいる団体には、メインに取り組んでいる団体ももちろん含まれるものの、そうではない団体が思ったより多いことがわかりました。 そして、子どもを選択している団体の活動傾向も垣間見ることができました。 具体的な活動内容が近い団体同士で協力や情報交換したり、支援する側が支援先により近い事例を紹介できれば直接役立つノウハウが提供できるのではないかと思います。 これまで、気持ち中心で語られ判断されることの多かったNPOの活動を、客観的で定量的な切り口で見ることができれば、様々なところで有効活用できそうですよね。 今後もビッグデータからさまざまな切り口で活動を分析していこうと思います。 CANPAN運営事務局 吉野 |