Text and Data Mining

Publié le 13 février, par Thérèse Hameau

L’article sur la fouille de textes et de données est mis à jour régulièrement (dernières modifications : le 13 février 2017). Il comporte l’essentiel des documents et évènements liés à cette thématique.
Il est divisé en cinq parties :

  • Union et Commission européennes
  • France
  • Royaume-Uni
  • Rapports, articles et prises de position
  • Elsevier
  Sommaire  

 UNION EUROPÉENNE - COMMISSION EUROPÉENNE

Article 3 | Text and data mining
1. Member States shall provide for an exception to the rights provided for in Article 2 of Directive 2001/29/EC, Articles 5(a) and 7(1) of Directive 96/9/EC and Article 11(1) of this Directive for reproductions and extractions made by research organisations in order to carry out text and data mining of works or other subject matter to which they have lawful access for the purposes of scientific research.

La proposition | 14 septembre 2016

 The FutureTDM project

As the use of content mining is significantly lower in Europe than in some countries in the Americas and Asia, the FutureTDM project seeks to improve uptake of text and data mining (TDM) in the EU. FutureTDM actively engages with stakeholders such as researchers, developers, publishers and SMEs and looks in depth at the TDM landscape in the EU to help pinpoint why uptake is lower, to raise awareness of TDM and to develop solutions.

This project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant greement No 665940. | septembre 2015 - août 2017

Le site : http://project.futuretdm.eu/

 Study by European Parliamentary Research Service

Review of the EU copyright framework : The implementation, application and effects of the "InfoSoc" Directive (2001/29/EC) and of its related instruments | octobre 2015

5. Key findings of the Ex-Post Impact Assessment on the implementation, application and enforcement of the InfoSoc Directive and of its related instruments

...

The lack of relevance of the EU copyright framework.

The overall approach adopted by the InfoSoc Directive and its subsequent legislation deserves urgent and careful adaptation to address the problems and gaps identified in the scope of the rights and exceptions, the existing emphasis on ’copy’ rights rather than authorship and also to address the insufficiencies concerning enforcement.

In particular, the absence of legal certainty to support the development of Text and Data Mining is a key gap in urgent need of addressing.

...

 OpenMinTeD, a H2020 European project

OpenMinTeD [Open Mining Infrastructure for Text & Data] sets out to create an open, service-oriented ep-Infrastructure for Text and Data Mining (TDM) of scientific and scholarly content. Researchers can collaboratively create, discover, share and re-use Knowledge from a wide range of text-based scientific related sources in a seamless way. | 36 mois, juin 2015 - mai 2018

The site

 Conseil « Compétitivité » de l’Union européenne

Adoption des conclusions du document Projet de conclusions du Conseil relatives à une recherche ouverte, en réseau et à forte intensité de données, qui constitue le moteur d’une innovation plus rapide et plus large | session des 28 et 29 mai 2015

...

8. SOULIGNE la croissance exponentielle des données, y compris des données de la recherche et SOULIGNE que si les données sont trouvables, accessibles, évaluables, réutilisables et interopérables, cela renforce considérablement le potentiel d’innovation et ouvre de nouvelles perspectives commerciales ; SOULIGNE l’importance de normes, licences et formats ouverts, ainsi que de solutions logicielles ouvertes afin que les données de la recherche restent réutilisables et que les processus scientifiques soient reproductibles ; dans ce contexte, RELÈVE qu’il faut promouvoir une innovation fondée sur l’exploration des textes et des données en tenant compte des besoins de la recherche et prendre en considération l’impact – et notamment les aspects financiers – de la réutilisation des contenus qui sont déjà légalement accessibles ; SOULIGNE la nécessité de garantir la sécurité juridique ainsi qu’un cadre réglementaire adéquat qui puisse contribuer à un environnement favorable à la science et à l’innovation, en vue d’une meilleure utilisation des données ;

...

 Stratégie pour un marché unique numérique en Europe

Communication de la Commission au Parlement européen, au Conseil, au Comité économique et social européen et au Comité des Régions | 6 mai 2015

...

2.4. Améliorer l’accès au contenu numérique - Moderniser le cadre en matière de droit d’auteur et le rendre plus européen

...

Dans le domaine de la recherche à des fins commerciales et non commerciales, l’absence de cadre juridique clair et les approches nationales divergentes risquent de freiner l’innovation fondée sur l’utilisation de l’exploration de textes et de données (recherche de corrélations ou d’occurrences significatives dans des textes ou des ensembles de données). Il pourrait s’avérer nécessaire d’accroître la sécurité juridique pour permettre aux chercheurs et aux établissements d’enseignement d’utiliser plus largement le contenu protégé par le droit d’auteur, y compris au-delà des frontières, et de profiter ainsi pleinement du potentiel de ces technologies et des avantages de la collaboration transfrontière. Comme tous les éléments des propositions relatives au droit d’auteur, cette nécessité donnera lieu à une évaluation tenant compte de son incidence sur toutes les parties intéressées.

...

Réactions à la Communication

International Association of Scientific, Technical and Medical Publishers (STM) | Text and Data Mining in the EU : Legal certainty already exists | 18 mai 2015

The International Association of Scientific, Technical and Medical Publishers (STM) notes the desire expressed in the ‘Communication on Single Digital Market Strategy for Europe’issued on 6 May 2015 for legal certainty around the use of copyright-protected materials, including across borders, for text mining. STM suggests that this certainty already exists - through the activities already undertaken by STM member publishers that simplify licensing, permit licensed use, and support text formatting for efficient TDM activities.

...

Rapport commandité par la DG Marché intérieur de la Commission européenne | De Wolf & Partners | Jean - Paul Triaille, Jérôme de Meeûs d’Argenteuil, Amélie de Francquen | March 2014

The purpose of this Study was to describe how data analysis fits within the present legal context in Europe (both in terms of copyright and of database protection), to highlight the issues which may constitute obstacles or difficulties when applying the existing legal texts, and to analyze whether a new exception for data analysis would be useful or necessary. The purpose was not to suggest ready-to-use provisions for a new possible directive but only to give directions and make suggestions.

...

 Licences for Europe, Text and Data Mining working group (WG4)

Press release of International Association of Scientific, Technical and Medical Publishers’ (STM) : European Commissioners endorse STM’s text and data mining initiatives | 15 November 2013

European Commissioners have recommended the International Association of Scientific, Technical and Medical Publishers’ (STM) TDM Roadmap as an official ‘pledge’ to help improve digital content licencing across Europe. At the final meeting of the Licences for Europe stakeholder dialogue, a broad spectrum of STM publishers presented their declaration of commitment to facilitate text anddata mining for non-commercial scientific research in the European Union. This commitment has now been recognised by the Commission as one of the ten outcome ‘pledges’ which are expected to bring real practical value to the future of digitalcontent delivery and licencingwithin Europe...

Press Release of the European Bureau of Library, Information and Documentation Associations (EBLIDA) | 13 November 2013

On the occasion of today’s Licences for Europe (L4E) plenary meeting EBLIDA calls upon the European Commission to acknowledge the lack of concrete results from the Licences for Europe process, and the need for urgent copyright reform...

Final Plenary Meeting | 13 novembre 2013

The Communication on “Content in the Digital Single Market” (18 December 2012) announced a final plenary meeting to conclude the “Licences for Europe” stakeholder dialogue. This meeting was held on 13 November 2013. It provided an opportunity for the Working Groups to report-back to the plenary on the conclusions they have reached as a result of their discussions, focusing on the practical solutions that were identified.

...

The 6th meeting | 14 October 2013

The 5th meeting | 4 July 2013

The 4th meeting | Brussels, 29 May 2013

Letter from European Technology SMEs, Open Access Publishers and the Research Sector |22 May 2013

...

Given the above, and the fact that we need to prioritise our limited resources in a way which will best help the Commission to create an appropriate legal and environmental framework for data-driven innovation within the EU, we believe our contribution will be more productive outside the “Licences for Europe” framework. Therefore, we can no longer participate in the “Licences for Europe” process. We maintain that a vibrant internet and a healthy scholarly publishing community need not be at odds with a modern copyright framework that also allows for the barrier‐free extraction of facts and data. We have already expressed this view sufficiently well within the Working Group.

We would like to reiterate our request for transparency around the “Licences for Europe” dialogue and kindly request that the following actions be taken :
1. That the list of organisations participating in all of the “Licenses for Europe” Working Groups be made publicly available on the “Licences for Europe” website ;
2. That the date of withdrawal for organisations leaving the process is also recorded on this list ;
3. That it is made clear on any final documents that the outputs from the working group on TDM are not endorsed by our organisations and communities.

...

The 3rd meeting | Brussels, 22 April 2013

Commission response to stakeholder letter on Licences4Europe text and data mining | 22 April 2013

The 2nd meeting | 15 March 2013

Letter from participants in response to "Licences for Europe- A Stakeholder Dialogue" text and data mining for scientific research purposes workshop | 26 February 2013

...

We write to express our serious and deep-felt concerns in regards to Working Group 4 on text and data mining (TDM). Despite the title, it appears the research and technology communities have been presented not with a stakeholder dialogue, but a process with an already predetermined outcome –namely that additional licensing is the only solution to the problems being faced by those wishing to undertake TDM of content to which they already have lawful access. Such an outcome places European researchers and technology companies at a serious disadvantage compared to those located in the United States and Asia.

....

The 1st meeting - Text Data Mining | 4 February 2013

 FRANCE

 Position de COUPERIN

Communiqué Couperin sur le projet de révision de la directive européenne sur les droits d’auteur | 20 janvier 2017, diffusé le 13 février 2017

Le consortium Couperin, qui réunit l’ensemble des organismes de recherche et d’enseignement supérieur français, se félicite de la proposition rédigée par la Commission européenne visant à réformer le droit d’auteur dans le marché unique...
En particulier :
L’introduction d’une exception obligatoire pour favoriser le « text et data mining »(TDM). Cette disposition était tout à fait nécessaire, pour sécuriser l’activité des chercheurs et protéger l’exception déjà introduite par la France lors du vote de l’article 38 de la loi sur une République numérique. Ainsi ce service fondamental sera étendu à l’ensemble des pays de l’Union Européenne. Sa consécration en droit européen constitue une avancée décisive : en facilitant le traitement transfrontière des données produites, elle donne un cadre juridique adapté aux programmes associant des équipes de recherche issues de différents territoires de l’Union et utilisant cette technologie ;
...

En l’état, la Directive présente plusieurs lacunes […] concernant le TDM, l’article 3, paragraphe 3, autorisant les titulaires de droits à « appliquer des mesures destinées à assurer la sécurité et l’intégrité des bases de données », doit être supprimé en raison des éléments d’appréciations contingents laissés à la seule appréciation des éditeurs et de l’insécurité juridique qui en découle. De même, l’appel à la mise en place de « bonnes pratiques » nuit à la clarté de l’exception. Ses fondements doivent être clairs et consister dans une liberté de principe de traitement par les chercheurs, sans crainte des réactions des ayants-droits.

Couperin regrette également la définition étroite de l’exception TDM : cette dernière se limite aux seuls organismes publics, alors les technologies d’analyse de masse sont un élément crucial de l’innovation...

...

 Position du Conseil scientifique du CNRS

...Il recommande toutefois que les différentes instances chargées de préciser l’interprétation de certains dispositions de la loi soient attentives à :
...permettre la conservation des résultats intermédiaires d’opérations de fouille de textes et de données, et leur dépôt dans des archives accessibles à d’autres chercheur.se.s. ...

La recommandation | 24 janvier 2017

 Position de l’association EPRIST

EPRIST prend position dans la mise en œuvre de la loi pour une République numérique, en visant plus particulièrement la fouille de textes et de données (TDM) contenue dans l’article 38. Elle attire l’attention sur deux décrets qui doivent être utiliser pour lever les éventuelles ambiguïtés ou imprécisions du texte actuel de l’article 38. Elle émet des recommandations dont un accès sans entrave aux textes et données licites, l’emploi de standards garantissant un niveau minimum d’interopérabilité et la prise en compte des différentes étapes de traitement des scientifiques dans le cadre de travaux reposant sur le TDM.

Position d’EPRIST sur la mise en œuvre de la loi "Pour une République numérique" | janvier 2017

 Etude comparative publiée par l’ADBU

(...) l’étude menée par l’ADBU s’appuie sur l’analyse d’un ensemble de retours d’expérience, qui permettent de mettre en évidence les conditions et les freins à la mise en œuvre effective de pratiques réussies en matière de fouille de textes et de données au sein de la recherche universitaire publique. L’étude aboutit à une série de recommandations à destination des acteurs de l’Enseignement supérieur et de la recherche (ESR) et des décideurs. (...)

La fouille de textes et de données dans l’enseignement supérieur et la recherche publique | décembre 2016

 Journée TDM organisée le 13 décembre 2016 par l’ADBU

« Fouille de textes et de données dans le contexte de la loi pour une République numérique » : les différentes interventions de la journée ainsi que les présentations powerpoint sont en ligne.

 L’exception TDM dans la loi numérique : mérites, limites et perspectives

[...] La loi République numérique a consacré une nouvelle exception au droit d’auteur et au droit de producteur de bases de données visant à permettre la « fouille » ou « l’exploration » de « textes ou de données incluses ou associées à des écrits scientifiques ».

Le texte de l’exception est issu d’un compromis qui fut très délicat à trouver au Parlement et il en porte les stigmates. Affecté de plusieurs lacunes et incohérences, il soulève des questions d’interprétation épineuses et il manque encore un (ou deux décrets) pour que l’exception soit réellement applicable. [...]

Le billet | Lionel Maurel, 9 novembre 2016

 Une Science ouverte dans une République numérique | Études et propositions en vue de l’application de la loi

Guide stratégique d’applications | octobre 2016
« L’objectif de ce Guide stratégique d’applications est de présenter à l’ensemble des communautés scientifiques, des parlementaires, des éditeurs scientifiques et de manière générale au grand public les applications pratiques des dispositions légales nouvelles introduites par la loi pour une République numérique dans le domaine des pratiques numériques de la Science.
...dans le prolongement des articles 30 et 38 de la loi pour une République numérique »

 Adoption de la loi pour une République numérique

La loi pour une République numérique a été publiée au Journal officiel le samedi 8 octobre 2016. Voici, inclus dans le chapitre II « Economie du savoir », l’article 38 sur la fouille de textes et de données (article 18bis dans le texte de la commission paritaire) qui modifie le code de la propriété intellectuelle et autorise
« Les copies ou reproductions numériques réalisées à partir d’une source licite, en vue de l’exploration de textes et de données incluses ou associées aux écrits scientifiques pour les besoins de la recherche publique, à l’exclusion de toute finalité commerciale. »
Est inclus dans le chapitre II, l’article 30 (ex article 17) qui stipule que dès lors que les les données issues d’une activité de recherche financée au moins pour moitié par des dotations publiques « ne sont pas protégées par un droit spécifique ou une réglementation particulière et qu’elles ont été rendues publiques par le chercheur, l’établissement ou l’organisme de recherche, leur réutilisation est libre. »

Le texte de loi

 Projet de loi pour une République numérique - Commission mixte paritaire

Le 29 juin 2016, la commission mixte paritaire, chargée de proposer un texte sur les dispositions restant en discussion du projet de loi pour une République numérique, est parvenue à un accord.
L’article 17 introduit, dans le code de la recherche, le libre accès au résultats scientifiques, recouvrant articles et données de la recherche, si ils sont issus d’une activité de recherche financée au moins pour moitié par des fonds publics
L’article 18 bis modifie le code de la propriété intellectuelle et introduit un droit pour l’exploration de textes et de données si celle-ci est effectuée pour les besoins de la recherche publique, à l’exclusion de toute finalité commerciale.
Le texte sera soumis au vote des députés le 20 juillet.

Le texte de loi

 Communiqué du Syndicat national de l’édition (SNE) et de la Fédération nationale de la presse d’information spécialisée (FNPS)

Fouille de textes et de données : la position des éditeurs scientifiques du Sne et de la Fnps | 15 juin 2016

[...] Ils tiennent toutefois à souligner que le droit d’auteur et les dispositions du Code de la propriété intellectuelle ne constituent pas en tant que tel un obstacle aux pratiques de FTD dans leurs publications : dès lors que les chercheurs ont un accès licite pour lire ces ressources, les éditeurs ne contestent pas qu’ils puissent également, sans avoir à payer plus pour cela, y pratiquer la FTD pour un usage de recherche publique non commerciale.[...]

 Argumentaire d’EPRIST pour définir un cadre juridique clair pour développer les usages de la fouille de texte et de données (FTD)

Un cadre juridique clair pour développer les usages de la fouille de texte et de données (FTD) : un préalable indispensable à la compétitivité de la recherche publique française | mai 2016

[...] il apparaît que seule la rédaction votée par l’Assemblée nationale met en place un cadre juridique sans faille, car introduisant une exception au droit d’auteur, pour le développement du FDT au sein de la recherche publique.
L’objectif du présent argumentaire est de nourrir la réflexion de la Commission Mixte Paritaire sur ce point. [...]

 Projet de loi pour une République numérique - Sénat

Adoption du projet de loi par le Sénat le 3 mai 2016 dont l’article 18 bis. Les sénateurs ont préféré la voie contractuelle à l’exception au droit d’auteur :
« Dans les contrats conclus par un éditeur avec un organisme de recherche ou une bibliothèque ayant pour objet les conditions d’utilisation de publications scientifiques, toute clause interdisant la fouille électronique de ces documents pour les besoins de la recherche publique, à l’exclusion de toute finalité directement ou indirectement commerciale, est réputée non écrite. L’autorisation de fouille ne donne lieu à aucune limitation technique ni rémunération complémentaire pour l’éditeur.

La conservation et la communication des copies techniques issues des traitements, aux termes des activités de recherche pour lesquelles elles ont été produites, sont assurées par des organismes dont la liste est fixée par décret.

Le présent article est applicable aux contrats en cours. »

Le texte de loi

 Collectif d’entrepreneurs et de dirigeants du numérique

Data mining : la loi ne doit pas enterrer la recherche française | 25 avril 2016

[...] Alors que nous commençons à peine à entrevoir les perspectives ouvertes par l’accumulation et la fouille massives de données, tous les acteurs économiques et industriels ont mobilisé leurs ressources et leur intelligence pour explorer les avancées potentielles qu’elles permettent. Paradoxalement et tristement, la Recherche publique française est empêchée de rejoindre ce mouvement à cause de multiples obstacles juridiques. [...]

 Réaction d’EPRIST (Association des responsables IST des organismes de recherche)

« Mission Text and Data Mining » : beaucoup de bruit pour rien… | 20 avril 2016

Le rapport aux ministres chargés de la Culture et de l’Enseignement supérieur sur la « Mission Text and Data Mining » rédigé par Charles HUOT, vient d’être rendu à ses deux commanditaires. Pour les chercheurs, que ce document prétend notamment représenter, ce rapport n’apporte rien : pas de vision des intérêts de la France ou de sa recherche scientifique, pas d’inscription au sein du projet européen, ou de prise en compte de la simple réalité du droit et des pratiques étrangères...

 Loi Pour une République numérique : défendons notre souveraineté scientifique !

Communiqué de la Conférence des présidents d’université (CPU) | 6 avril 2016

Les dirigeants d’organismes de recherche et d’établissements d’enseignement supérieur demandent la liberté d’accès à la fouille de textes et de données à des fins scientifiques.

En tant que responsables d’organismes de recherche et d’établissements d’enseignement supérieur et de recherche, nous souhaitons solennellement attirer votre attention sur les conséquences qu’aurait la suppression de l’article 18 bis relatif à la liberté d’accès à la fouille de textes et de données à des fins de recherche scientifique (TDM : Text and Data Mining) dans la loi Pour une République Numérique actuellement en examen au Sénat...

 Libre accès et partage des données de la recherche … Vers une science ouverte ? II – L’exploration de contenus

par Dinah Galligo, 15 mars 2016 dans le blog Prospectibles

Le billet

 Projet de loi pour une République numérique - Assemblée nationale

Adoption du projet de loi par l’Assemblée nationale le 26 janvier 2016 dont l’article 18 bis qui introduit l’exception pour TDM : « Les copies ou reproductions numériques réalisées à partir d’une source licite, en vue de l’exploration de textes et de données pour les besoins de la recherche publique, à l’exclusion de toute finalité commerciale. »

Le texte de loi

 Rapport du Conseil supérieur de la propriété littéraire et artistique (CSPLA) - France

Mission sur l’exploration de données (« Text and Data mining ») | juillet 2014

...

Le résultat de l’exploration de données ne fait pas d’emprunt à la forme originale de l’œuvre. Il n’a pas pour objet, sauf exception, à la restituer, pas plus que le contenu des bases de données. De l’une ou de l’autre, il ne dégage que de la « connaissance », du « sens », par l’analyse de l’objet prédéfini ou aléatoire opérée grâce à des algorithmes élaborés pour combiner et traiter une multitude de sources et de problématiques en fonction de la finalité recherchée.

C’est un nouveau défi pour le droit de la propriété littéraire et artistique : protecteur de la forme de l’œuvre et du contenu des bases de données est-il apte à les protéger d’appropriations de leur sens, apparent ou caché, à supposer que l’analyse ne soit pas libre, fût-elle automatisée ?

...

 Journées ABES 2014

En lien avec les journées : Le droit, un obstacle pour le Datamining ? | Michèle Battisti | 29 mai 2014

Text et Datamining : contexte économique et juridique | Michèle Battisti | 21 mai 2014
Présentation
Vidéo

 Position de Couperin et de l’ADBU

CSPLA - Mission relative au data mining (exploration de données) : l’analyse de Couperin et de l’ADBU | avril 2014

...

L’exception sans compensation apparaît donc comme la seule voie praticable pour régler juridiquement le problème soulevé par le TDM au regard du droit sui generis des bases de données.

C’est du reste la voie choisie tout récemment par la Grande-Bretagne, qui semble faire de cette exception une extension à son exception au titre de l’enseignement et de la recherche, ce qui évite d’allonger la liste limitative des exceptions prévues par la directive communautaire 2001/29/CE. Cette voie britannique serait tout aussi praticable en France (du reste, l’article L342-3 du Code de la propriété intellectuelle articule déjà le droit sui generis des bases de données et la timide exception française au titre de l’enseignement et de la recherche).

...

L’adoption rapide d’une telle exception en France est cruciale pour la compétitivité de notre recherche : la pratique du TDM est déjà admise aux USA (jurisprudence HathiTrust), gravée dans laloi en Irlande et bientôt en Grande-Bretagne. Comme le montrent différentes études, les bénéfices pour l’ensemble de la société, qu’il s’agisse du secteur public ou commercial, sont très nettement supérieurs au peu probable préjudice que pourraient encourir les titulaires de droits du fait des usages attachés au TDM.

...

Synthèse de Savoirscom1, consécutive à l’audition du 15 janvier 2014
par le Conseil Supérieur de la Propriété Littéraire et Artistique
| Pierre-Carl Langlais et Lionel Maurel | janvier 2014

Contextes et enjeux
L’exploration automatisée des textes et des données (ou content-mining 2) est une activité en plein essor. Des outils d’extraction et d’analyse élaborés sont accessibles à un coût faible voire nul. Les savoir-faire se démocratisent. Les réseaux numériques permettent de récupérer et de croiser quantité d’informations.
L’amélioration et la diffusion de ces techniques d’exploration facilitent considérablement le travail de recherche. La délégation de nombreuses tâches de récupération et d’identification des informations à des algorithmes permet d’envisager des projets d’une ampleur inédite. Text2genome cartographie le génome humain en compilant automatiquement trois millions de publications 3. La portée de cette métamorphose dépasse le seul cadre de la recherche académique. Le content-mining irrigue un écosystème de la connaissance en pleine recomposition, marqué notamment par l’essor de communautés ouvertes sur le modèle de Wikipédia ou de Wikidata.

...

 ROYAUME-UNI

 Etude comparative publiée par l’ADBU

(...) l’étude menée par l’ADBU s’appuie sur l’analyse d’un ensemble de retours d’expérience, qui permettent de mettre en évidence les conditions et les freins à la mise en œuvre effective de pratiques réussies en matière de fouille de textes et de données au sein de la recherche universitaire publique. L’étude aboutit à une série de recommandations à destination des acteurs de l’Enseignement supérieur et de la recherche (ESR) et des décideurs. (...)

La fouille de textes et de données dans l’enseignement supérieur et la recherche publique | décembre 2016

 CREATe Working Paper 2016/07

From infringement to exception : why the rules on data mining in Europe need to change, Christian Geib | juin 2016

...

This paper considers how the relationship between UK and EU copyright and database law and data mining affects three important industries : the pharmaceutical sector, law enforcement and marketing. It concludes that data mining is prima facie infringing. The legal exception and defences currently available are at best insufficient and at worst not applicable to data mining. Such legal uncertainty is likely to have a chilling effect on data mining in Europe.

...

 TDM guide - JISC

The text and data mining copyright exception : benefits and implications for UK higher education, John Kelly | 9 février 2016

Changes in the law enable researchers to make copies of copyright material for computational analysis. This guide outlines the implications of the new text and data mining copyright exception1 for researchers, research support services and librarians in UK universities.

Research, private study and text and data analysis for non-commercial research | octobre 2014

29A Copies for text and data analysis for non-commercial research

(1) The making of a copy of a work by a person who has lawful access to the work does not infringe copyright in the work provided that—

(a) the copy is made in order that a person who has lawful access to the work may carry out a computational analysis of anything recorded in the work for the sole purpose of research for a non-commercial purpose, and

(b) the copy is accompanied by a sufficient acknowledgement (unless this would be impossible for reasons of practicality or otherwise).

...

The right to read is the right to mine : Text and data mining copyright exceptions introduced in the UK. | LSE Impact of Social Sciences blog | Ross Mounce | 4 juin 2014

After eight long years including not one but two expert-led reviews of intellectual property ; new copyright exceptions, some of which in particular will enable and empower UK academic research came into force on June 1st 2014. All disciplines are set to benefit from this : the humanities, the social sciences, science, technology and medicine.

Of particular interest to myself and other researchers is the ‘Exception for copying of works for use by text and data analytics’. In order to understand why this is so important, let me take you back to how it was before the copyright exception came into force (and how the legal situation still is for researchers in most other European countries) :

...

Commentaires de l’Office anglais de propriété intellectuelle adressée au Parlement en réponse à la lettre des associateurs d’éditeurs | 28 avril 2014

In the light of Mr Mollet’s and Mr Mabe’s letter of 25 April concerning the report from De Wolf and Partners, the Government wishes to bring to the attention of the Committees not only its disagreement with the conclusions drawn by the PA and STM but also the ways in which the De Wolf report itself contradicts a number of the views expressed in the letter from the PA and STM.

...

 International Association of STM Publishers et The Publishers Association

Lettre adressée au Parlement britannique à la suite de la publication du rapport Study on the legal framework of text and data mining (TDM) publié en mars 2014 | 25 avril 2014

... one week ago the European Commission Directorate General for the Internal Market published a significant study and report which we believe has major implications for the UK government’s legislative proposals. Therefore, we wish to bring this to the attention of both Committees as a matter of urgency, in the hope that Members will have the opportunity to consider it in the course of their deliberations in the coming weeks...

Government takes important step towards modernising copyright | 27 mars 2014

Changes to bring UK copyright law up to date for the digital age have taken an important step forward today (27 March 2014), as the government publishes the final Exceptions to Copyright regulations for consideration by Parliament.

 Data mining in UK higher education institutions : law and policy

Queen Mary Journal of Intellectual Property, Vol. 4 No. 1, pp. 3–29 | Andres Guadamuz and Diane Cabell | février 2014

Abstract
This article explores some of the issues surrounding data mining in the UK’s higher education institutions (HEIs). Data mining is understood as the computational analysis of data contained in a text or data set in order to extract new knowledge from it. There are two main ways in which HEIs are involved with data mining : in the process of conducting research, and as producers of data.
...

L’article

 Value and benefits of text mining

Rapport commandité par le JISC | Diane McDonald, Ursula Kelly | mars 2012

Executive summary

Businesses use data and text mining to analyse customer and competitor data to improve competitiveness ; the pharmaceutical industry mines patents and research articles to improve drug discovery ; within academic research, mining and analytics of large datasets are delivering efficiencies and new knowledge in areas as diverse as biological science, particle physics and media and communications.

We have explored the costs, benefits, barriers and risks associated with text mining within UKFHE research using the approach to welfare economics laid out in the UK Treasury best practice guidelines for evaluation.

...

 RAPPORTS, ARTICLES ET PRISES DE POSITION

 European Alliance for Research Excellence

Europe needs to talk more about text and data mining (TDM). It’s not a topic that appears at the top of most lists of policy priorities but it is important. TDM matters because it sits at the heart of a lot of research and innovation, helping create new medical treatments and new technologies which can save lives, create jobs and shape the world of tomorrow.
...

To help promote the discussion that is already happening about TDM, and solutions to the problems caused by the new Copyright Package, the European Alliance for Research Excellence (EARE) has been launched. This coalition aims at amplifying the voices of TDM users from various sectors and research communities, to promote fair and effective copyright rules for TDM in Europe.

Le communiqué de presse | 14 février 2017

 CDL Model License Revised

Text and Data Mining. Text and Data Mining. Authorized Users may use the Licensed Materials to perform and engage in text and/or data mining activities for academic research, scholarship, and other educational purposes and may utilize and share the results of text and/or data mining in their scholarly work and make the results available for use by others, so long as the purpose is not to create a product for use by third parties that would substitute for the Licensed Materials. Licensor will, upon receipt of written request, cooperate with Licensee and Authorized Users as reasonably necessary in making the Licensed Materials available in a manner and form most useful to the Authorized User. Licensor shall provide to Licensee, upon request, copies of the Licensed Materials for text and data mining purposes without any extra fees. (excerpt of public version)

Le communiqué de presse | janvier 2017

 FutureTDM Project : FutureTDM’s policy recommendations

par Marco Caspers | 18 janvier 2017

With copyright reform being processed at the EU institutions over the coming months, we take a look in this blog at the FutureTDM policy framework recommendations for legislators ; further stakeholder guidelines will be highlighted in upcoming project materials.

The blog post

 FutureTDM Project : A right to read for machines ? Part I : The introduction

par Marco Caspers | 2 décembre 2016

... The panel aimed to discuss the legal, economic and practical impact and merits of an exception for text and data mining (TDM) under copyright law. This is the first blog post in a small series, which reflects and follows on from the panel discussion. In this post, I will outline what was the motive and input for this discussion...

The blog post

 OpenMinTeD project : White paper on community requirements for text and data mining

Text and data mining is important to different scientific communities, but what do these different user communities need to mine succesfully ? One of the aims of workpackage 4 of the OpenMinTeD project is to collect these requirements. This was done using a combination of methods, including online surveys and focus groups. The results are summarized in the ‘White paper on OpenMinTed Community Requirements’.

The white paper | 1 décembre 2016

 Text mining resources for the life sciences

by Piotr Przybyła, Matthew Shardlow and all., in Database | octobre 2016

Text mining is a powerful technology for quickly distilling key information from vast quantities of biomedical literature. However, to harness this power the researcher must be well versed in the availability, suitability, adaptability, interoperability and comparative accuracy of current text mining resources. In this survey, we give an overview of the text mining resources that exist in the life sciences to help researchers, especially those employed in biocuration, to engage with text mining in their own work...

The article | doi : 10.1093/database/baw145

par Lucie Guibault et Thomas Margoni | 4 juillet 2016

... Open access efforts, which aim to make the outputs of publicly funded research more widely accessible in digital formats, therefore raise a number of IP policy questions. To explain the interplay between open access and IP laws, this chapter provides an overview of the IP regimes that protect research outputs in a sample of OECD jurisdictions.
...
The abstract (pas d’accès libre au texte intégral)

 Lisbon Council

Text and Data Mining for Research and Innovation : What Europe Must Do Next | 30 mai 2016

[...] the paper revisits the data two years later and finds that recent trends have only accelerated. Concretely, Asian and U.S. scholars continue to show a huge interest in text and data mining as measured by academic research on the topic. And Europe’s position is falling relative to the rest of the world. The paper looks at the legal complexity and red tape facing European scholars in the area, and call for wholesale reform. The paper was prepared for and formally submitted as part of the European Commission’s Public Consultation on the Role of Publishers in the Copyright Value Chain and on the ‘Panorama Exception.’

 OpenForum Europe (OFE) publishes High Level Policy Paper on text and data mining

An analytical review of text and data mining practices and approaches in Europe
Policy recommendations in view of the upcoming copyright legislative proposal
par Diana Cocoru et Mirko Boehm | 1er mai 2016

TDM can be approached using different regulatory options, such as an explicit right in the national or European law, an optional exception, a mandatory exception or fair use of the copyrighted material (which is the case in the US). The current status in the EU is that TDM is one of the exceptions provided for in the InfoSoc Directive. This led to Member States implementing it in a very fragmented way, or in some cases choosing not to implement it at all, creating significant legal uncertainty for researchers and other stakeholders.

In this paper, OFE presents the vast majority of the various arguments and approaches relating to TDM in Europe, as well as providing recommendations addressing various identified challenges.

...

 Text and Data Mining Are Growing and Publishers Need to Support Their Use

An AAP-PSP Panel Report | février 2016

... During the panel, we discussed the licensing challenges, the expectations of users, some of the technical issues, and some of the future challenges and opportunities surrounding text and data mining (TDM)...

The report

par Publishers Licensing Society (PLS) | juillet 2015

The change in copyright legislation to create a new exception for text and data mining has had no discernible effect on the practice, with publishers’ licensing and automated services continuing to be the main mode of access...

The paper

par Christian Handke, Lucie Guibault et Joan-Josep Vallbé | juin 2015

Abstract
This empirical paper discusses how copyright affects data mining (DM) by academic researchers. Based on bibliometric data, we show that where DM for academic research requires the express consent of rights holders : (1) DM makes up a significantly lower share of total research output ; and (2) stronger rule-of-law is associated with less DM research. To our knowledge, this is the first time that an empirical study bears out a significant negative association between copyright protection and innovation.

The paper

Copyright Clearance Center, Inc. (CCC), a global licensing and content solutions organization, announces the launch of its text mining solution, RightFind™ XML for Mining. Using the module, commercial life science researchers can create sets of full-text XML articles from more than 4,000 peer-reviewed journals produced by over 25 scientific, technical, and medical (STM) publishers, and import them into their preferred third-party text mining software.[more] | juin 2015

 ARL Publishes Issue Brief

ARL has released an “Issue Brief : Text and Data Mining and Fair Use in the United States” (PDF), which describes the role and usefulness of text and data mining, provides a short background of fair use, and presents an analysis of fair use in text and data mining, including eight cases that support fair use in this context.

Issue Brief : Text and Data Mining and Fair Use in the United States | juin 2015

 The Hague Declaration

The Hague Declaration on Knowledge Discovery in the Digital Age | mai 2015

Vision

New technologies are revolutionising the way humans can learn about the world and about themselves. These technologies are not only a means of dealing with Big Data1, they are also a key to knowledge discovery in the digital age ; and their power is predicated on the increasing availability of data itself. Factors such as increasing computing power, the growth of the web, and governmental commitment to open access2 to publicly-funded research are serving to increase the availability of facts, data and ideas.

However, current legislative frameworks in different legal jurisdictions may not be cast in a way which supports the introduction of new approaches to undertaking research, in particular content mining. Content mining is the process of deriving information from machine-readable material. It works by copying large quantities of material, extracting the data, and recombining it to identify patterns and trends.

...

BENEFITS OF CONTENT MINING

The potential benefits of content mining are vast and include :

  • Addressing grand challenges such as climate change and global epidemics
  • Improving population health, wealth and development
  • Creating new jobs and employment
  • Exponentially increasing the speed and progress of science through new insights and greater efficiency of research

...

 EBLIDA | Open letter

Open letter on modernising copyright in the Digital Single Market | avril 2015

...

Adopting a Meaningful Exception for Text and Data Mining :

A harmonized exception on text and data mining for commercial and non-commercial purposes will ensure a level playing field for European researchers (amongst Member States as well as in a global context), make Europe more competitive, and maximise the return on investment of public money.

...

The Briefing Paper | avril 2015

This Briefing Paper has been prepared by Science Europe’s Working Group on Research Data. Text and Data Mining (TDM) aims to analyse and extract new insights and knowledge from vast amount of digitally-available content. It represents a great potential for research itself (e.g. accelerating research processes) but also for the economy and society as a whole since it enables innovation. The Briefing Paper gives an overview of some of the legal hurdles faced by researchers using TDM practices, flags possible action lines for research organisations and calls for a more science-friendly EU Copyright law...

 LIBER Argues For Pan-European TDM Exception

On 19 February former LIBER President Paul Ayris attended, at the request of current LIBER President Kristiina Hormia-Poutanen, a high-level meeting with European Commissioner Oettinger in Brussels on copyright reform — arguing the case of a mandatory pan-European Exception for Text and Data Mining, which could not be overridden by contracts.

The text of Dr Ayris’s intervention | 19 février 2015

Study | 23 juin 2014

...

Text and Data Mining for the purpose of scientific research

Text and data mining is generally thought of as a computational process that aims at discovering patterns in large databases and/or collections of textual content. For the purpose of our analysis, we focus on text and data mining which is conducted for the purpose of scientific research on content published in scientific journals.

...

Our analysis supports the introduction of an exception to copyright
for TDM : (1) which is conducted for the purpose of scientific research ; (2) which is conducted for non-commercial objectives ; (3) which covers only TDM activities carried out on content to which there is a “lawful” access ; (4) which allows rightholders to implement minimal technical conditions to ensure secure access and a stable platform ; and (5) which would kick in only when a rightholder does not offer licences
for text and data mining. This exception may facilitate text and data mining for the purpose of scientific research, as compared to the Status Quo, without significantly adversely affecting rightholders’ incentives for content creation, content quality and TDM-specific investments.

...

 LIBER and LERU Position

LIBER (Association of European Research Libraries) and LERU (the League of European Research Universities) have released a letter which publicly states our opposition to the European Publishers Council’s EPC Copyright Vision Paper 2014 : Copyright Enabled on the Network.

The letter to EU Commission DG | 21 juin 2014

...
We are seeking an Exception for TDM that will allow those who have legal access to the content to extract facts and data from the content using automated methods such as crawling and scraping. We are
not seeking to gain free access to copyrighted works. Mass
downloading of content for redistribution to third parties with no legal right to access the content is illegal. Enabling users to perform text and data mining at scale does not equate to enabling users to steal content and make it available illegally. However, distribution of the results of text and data mining must be permissible so long as the results are not a substitution for the original work.
...

EPC Copyright Vision Paper 2014 : Copyright Enabled on the Network | 19 juin 2014

...
Any exception for text and data mining, however carefully defined or limited, for example to non-commercial use, could effectively destroy the very primary market of the content that could be mined. Even if an exception were to be limited to non-commercial research, it is impossible adequately to delineate the boundaries between research and other activities and between non-commercial and commercial. Therefore the EPC is adamantly opposed to the introduction of a new
exception in this field.
...

Solutions
EPC members recognise that data mining is part of the daily work of a researcher. The solution lies in a ‘toolbox of solutions’, using the appropriate platforms, technical infrastructure and standard licence terms to obviate the need for “case-by-case” negotiations.

EPC welcomes the text and data mining services launched by Crossref, a service which will be provided at no cost to the researcher.
...

 CrossRef’s text and data mining

CrossRef Text and Data Mining Service

CrossRef Text and Data Mining Services Simplify Researcher Access | 29 mai 2014

CrossRef Text and Data Mining services, allowing publishers to provide information that will simplify access arrangements for researchers who desire to mine and analyze scholarly publisher sites, is now available to CrossRef Members. CrossRef, a not-for-profit association of worldwide scholarly publishers, made the announcement at the Society for Scholarly Publishing Annual Meeting here today.

Publishers participating in CrossRef Text and Data Mining services may now deposit full-text links in the metadata for their DOIs, as well as license URIs by which researchers can determine whether they have permission to mine a particular content item. Through CrossRef’s Application Programming Interface (API), researchers will then to be able to access the full-text, CrossRef DOI–identified content across participating publishers’ sites, regardless of their access models.

...

 Standardisation in the area of innovation and technological development, notably in the field of Texte and Data Mining

Report published – Independent Expert Group on Text and Data Mining | 4 avril 2014

A group of independent experts headed by Professor Ian Hargreaves has today released its report on Text and Data Mining (TDM) for research. TDM is an important technique for analysing and extracting new insights and knowledge from the exponentially increasing store of digital data (‘Big Data’).The Expert Group report provides insight into the wider context of TDM, including standardisation in the area of innovation and technological development. Its findings are a contribution to developing the international competitiveness of the European Union’s research base in the digital age.

 IFLA Statement

IFLA Statement on Text and Data Mining | 12 décembre 2013

...

IFLA maintains that legal certainty for text and data mining (TDM) can only be achieved by (statutory) exceptions. As an organization committed to the principle of freedom of access to information, and the belief that information should be utilised without restriction in ways vital to the educational and cultural well-being of communities, IFLA believes TDM to be an essential tool to the advancement of learning, and new forms of creation.

...

Prospect, the Pilot of the service | décembre 2013

...

The CrossRef Text and Data Mining Pilot will allow publishers and researchers to examine and test the specifications for the proposed Common API and License Registry.

...

 STM - Text and Data Mining Declaration

Text and Data Mining for Non-Commercial Scientific Research | novembre 2013

 Report from a workshop organised by LIBER Europe and held at the British Library

The Perfect Swell : defining the ideal conditions for the growth of text and data mining in Europe. | 27 septembre 2013
The workshop is intended as a follow-up to our joint response and subsequent withdrawal from the Licences for Europe workshop on text and data mining. It is intended as a means of initiating a broader discussion around text and data mining with the context of data driven innovation and well as providing feedback to policymakers regarding the conditions need to foster text and data mining in Europe for both research and innovation.

 Ann Okerson and IFLA paper

Text & Data Mining - A Librarian Overview | août 2013

The paper discusses what data and text mining is, and how librarians can make use of it within the various licensing restrictions.

 STM licences

Publishing Sector Proposal for a Sample Licence Clause for Text and Data Mining (TDM) of subscribed copyright-protected works and materials | 17 avril 2013

 LIBER Factsheet

« Text and Data Mining : Its importance and the need for change in Europe. » | avril 2013

 Guide to Text Mining and Scholarly Publishing

The Publishing Research Consortium (PRC) produces a Guide to Text Mining and Scholarly Publishing | février 2013

PRC has produced this easy-to-read guide - in about 20 pages including glossary etc - to help remove the confusion which surrounds this topic. It takes the reader through what text and data mining are (and the difference between them), how they are done and what publishers and others have to do to enable them. People in different fields can mean different things by these terms, but armed with this you should be able to discern what type of ’mining’ they are actually referring to. It is hoped this will be useful not only to scholarly publishers, but to all those potentially involved, including policymakers, librarians and even researchers themselves.

 Data Mining White Paper : Analysis of UK/EU law on data mining in higher education institutions


par A. Guadamuz et D. Cabell | janvier 2013

... This report will identify the main legal barriers to data mining and data reuse and make policy suggestions to guide governments, funding agencies, and research institutions. As the title suggests, the emphasis of the study is about legal issues that are specific to higher education institutions (HEIs).
...

The white paper

 The Right to Read Is the Right to Mine

The following is a draft content mining declaration developed by the Open Knowledge Foundation’s Working Group on Open Access
par Peter Murray-Rust | juin 2012

...

Definition
‘Open Content Mining’ means the unrestricted right of subscribers to extract, process and republish content manually or by machine in whatever form (text, diagrams, images, data, audio, video, etc.) without prior specific permissions and subject only to community norms of responsible behaviour in the electronic age.

...

 Text and Data Mining : STM Statement & Sample Licence

STM’s Legal Affairs Committee provides a short Summary Statement on Text and Data Mining (TDM) as well as a sample licence that can be used for a variety of TDM purposes (whether stand alone, project by project, or as part of a larger content subscription arrangement... | mars 2012

 Journal Article Mining | A research study into Practices, Policies, Plans.....and Promises

A research study commissioned by the Publishing Research Consortium | mai 2011

Preface : Executive summary

This is a research study commissioned by the Publishing Research Consortium on the topic of Content Mining of Journal Articles. Content mining is defined as the automated processing of large amounts of digital content for purposes of information retrieval, information extraction and meta‐analysis. This study, carried out between February and May 2011, aims to provide an overview of current practices, players, policies, plans and expectations for text mining and data mining of content in academic journals. The research consisted of a series of 29 interviews with experts and people working on content mining and was concluded by a survey among scholarly publishers.

Overall, experts expect a further acceleration of text and data mining into scholarly content, sparked by a greater availability of digital content corpuses, the ever increasing computer capabilities, improved user‐friendliness of software tools and easier access to content. Semantic annotation of content is expected by some to develop into a new standard for STM content, facilitating better and deeper search and browse facilities into related articles ‐‐ even if use cases and business propositions are at present in infancy stage only and not yet fully developed.

...

 International Council for Scientific Information (ICSTI)

Text and Data Mining | juillet 2009

A potentially useful intellectual tool for researchers is the ability to make connections between seemingly unrelated facts, and as a consequence create inspired new ideas, approaches or hypotheses for their current work. This can be achieved through a process known as text mining (or data mining if it focuses on non-bibliographic datasets)...

 ELSEVIER

 Articles et billets autour d’Elsevier et de la question du Data Mining

Elsevier’s reply : Open Letter in Response to the Request for Elsevier to Withdraw its Text and Data Mining Policy | 10 juillet 2014

...

We understand that librarians will continue to lobby for exceptions, and while we disagree on whether these are necessary, would call on all stakeholders to agree that it is important to provide researchers with practical, workable TDM services now no matter the legal framework of the country in which they are based.

...

European Research Organisations Call On Elsevier To Withdraw TDM Policy | 1er juillet 2014

Eighteen European research and library organisations, including LIBER, are today calling on Elsevier to withdraw its current policy on text and data mining (TDM)

Our request has been laid out and explained in an open letter to Michiel Kolman, Senior VP Global Academic Relations at the academic publishing company.

...

LIBER response to Elsevier’s text and data mining policy | 28 mars 2014

In response to the recent launch of Elsevier’s policy on text and data mining, LIBER has produced a discussion paper which analyses the potential impact of the policy, the associated click-through licence, and the API.

Data Mining : quand Elsevier écrit sa propre loi… | Pierre-Carl Langlais | Sciences communes | 8 février 2014

Le leader mondial incontesté de l’édition scientifique, Elsevier s’engage en faveur d’une simplification du data mining. De nouvelles conditions d’accès, dévoilées le mois dernier, vont grandement simplifier l’accès à l’un des principaux corpus de publications scientifiques. D’autres éditeurs devraient prochainement adopter un modèle similaire. C’est notamment le cas du principal concurrent d’Elsevier, Springer.

En apparence ce pourrait être une bonne nouvelle. La recension de Nature met ainsi en évidence l’engouement de certains chercheurs. Max Hauessler, l’instigateur d’un immense projet d’extraction des articles scientifiques sur le génome humain, a salué l’initiative : « Finalement, tout ceci montre qu’il n’y a plus aucune raison d’être effrayé par le text-mining ». Les membres du Human Brain Project (le projet européen d’étude du cerveau humain, doté d’un budget d’un milliard d’euros) semblent également emballés par l’affaire : « Nous sommes enchanté par tout ceci. Cela résout d’importantes questions techniques ».

...

Elsevier opens its papers to text-mining | Richard Van Noorden | Nature 506, 17 (06 February 2014) | doi:10.1038/506017a

Academics : prepare your computers for text-mining. Publishing giant Elsevier says that it has now made it easy for scientists to extract facts and data computationally from its more than 11 million online research papers. Other publishers are likely to follow suit this year, lowering barriers to the computer-based research technique. But some scientists object that even as publishers roll out improved technical infrastructure and allow greater access, they are exerting tight legal controls over the way text-mining is done.

...

 Text and data mining | Elsevier’s position

Elsevier’s policy

As the volume of scholarly output increases, we recognize that researchers are increasingly interested in using tools such as text mining to explore patterns and trends across large databases of content.

Elsevier has for many years actively collaborated with researchers and institutes to facilitate text and data mining, both by enabling access and by investing in our platforms to support these initiatives. Our text and data mining policy is intended to simplify access for researchers, as well as clearly detailing the terms and conditions of this access.

...

How does Elsevier’s text mining policy work with new UK TDM law ? | 9 juin 2014

Text Mining : Elsevier Releases New Terms for Academe | Nancy K. Herther | 4 mars 2014

Elsevier updates text-mining policy to improve access for researchers | Chris Shillum | 31 Janvier 2014