WikipediaのダンプXMLファイルを解析する方法

下記からlibwiki.plをダウンロードする。


解析対象のXMLダンプファイルを下記から落とす。


unbzip2 で 拡張子を.xml.bz2から.xmlに変換して、

perl sample_main1.pl jawiki-20210501-pages-articles.xml

を実行する。

以上でxmlダンプファイルが解析されてページタイトルなどが表示される。


0コメント

  • 1000 / 1000