CSV (с дополнительными кавычками в значении поля) в массив в ColdFusion

Я конвертирую CSV-файл в массив, используя этот пост. Все работало нормально. Но у меня есть файл, который содержит лишние кавычки в значениях полей, например:

"bash: "shortcuts" are" и

"bash: \"shortcuts\" are".

Поэтому я попытался заменить эти цитаты следующим образом:

<cffile action="read" file="#filePath#" variable="csvContent">
<cfset csvContent = reReplace(csvContent, '(?:[^,\r\n])"(?:[^,\r\n])', '&quot;', 'ALL')>

<--- Then do the conversion --->
<cfset array = csvToArray(csv = csvContent)>

Но группа без захвата не работает. Что я делаю неправильно?

Есть ли другой способ сделать это?

Изменить 1:

Я также пробовал использовать cfhttp и получил следующую ошибку:

<cfhttp name="csvToQuery" method="get" url="#url#" />

Подробно: проверьте количество столбцов, указанное в атрибуте columns и в целевом файле.

Сообщение: неправильное количество столбцов в строке.

О, вы не сможете так легко исправить такой ввод самостоятельно. Регулярные выражения еще больше разрушат ваши данные.


person Beginner    schedule 08.06.2015    source источник
comment
@DanBracuk Я тоже использовал этот подход, но получаю ошибку. Я добавил это в свой вопрос.   -  person Dan Bracuk    schedule 08.06.2015
comment
Отлично. Надеюсь, вы не против, но поскольку CF работает поверх java, я добавил небольшой перевод, а не публиковал отдельный ответ, который просто повторяет ваш. Протестировано с CF11. Одно небольшое изменение: мне нужно было добавить _1_ для обработки экранирования во втором примере. Если вам не нравятся изменения, смело откатывайте назад.   -  person Beginner    schedule 08.06.2015


Ответы (1)


Можете ли вы создать небольшой скрипт на Java, чтобы справиться с этим? Если да, то используйте uniVocity-parsers, чтобы прочитать введенный CSV-файл и записать его с помощью правильная цитата ускользает:

Это единственный синтаксический анализатор CSV, который может обрабатывать неработающие кавычки. Попробуйте этот пример:

Этот код выдаст следующий результат (который, вероятно, может быть прочитан вашим инструментом импорта данных):

import com.univocity.parsers.csv;

import java.io.*;
import java.util.*;

public class Test {

    public static void main(String ... args){
        CsvParserSettings settings = new CsvParserSettings();
        settings.getFormat().setLineSeparator("\r\n");
        settings.setParseUnescapedQuotes(true); // THIS IS IMPORTANT FOR YOU
        CsvParser parser = new CsvParser(settings);

        String line1 = "something,\"a quoted value \"with unescaped quotes\" can be parsed\", something\r\n";
        System.out.println("Input line: " + line1);

        String line2 = "\"after the newline \r\n you will find \" more stuff\r\n";
        System.out.println("Input line: " + line2);

        List<String[]> allInputLines = parser.parseAll(new StringReader(line1 + line2));

        System.out.println("===============\nParsed input values\n===============");
        int count = 0;
        for(String[] line : allInputLines){
            System.out.println("From line " + ++count + ":");
            for(String element : line){
                System.out.println("\t" + element);

            }
            System.out.println();
        }

        //Let's write your output CSV
        StringWriter output = new StringWriter();
        CsvWriterSettings writerSettings = new CsvWriterSettings();
        writerSettings.getFormat().setLineSeparator("\r\n");
        writerSettings.getFormat().setQuoteEscape('\\'); //it seems you are using backslash as quote escape
        writerSettings.getFormat().setCharToEscapeQuoteEscaping('\\'); //when your quote escape character is not the same as the quote character, you might need to escape the escape character as well
        writerSettings.setQuoteAllFields(true); //let's force quotes on all fields so whatever is parsing your input file has more  chance of doing it properly
        CsvWriter writer = new CsvWriter(output, writerSettings);

        for(String[] row : allInputLines){
            writer.writeRow(row);
        }
        writer.close();

        System.out.println("===============\nNicely formatted output\n===============");
        System.out.println(output.toString());

    }

}

Раскрытие информации: я являюсь автором этой библиотеки. Он бесплатный и с открытым исходным кодом (лицензия Apache V2.0).

Input line: something,"a quoted value "with unescaped quotes" can be parsed", something

Input line: "after the newline 
you will find " more stuff

===============
Parsed input values
===============
From line 1:
    something
    a quoted value "with unescaped quotes" can be parsed
    something

From line 2:
    after the newline 
you will find " more stuff


===============
Nicely formatted output
===============
"something","a quoted value \"with unescaped quotes\" can be parsed","something"

"after the newline 
 you will find \" more stuff"

Пример ColdFusion 10+:

Загрузите банку в свой Application.cfc

  1. Создайте экземпляры классов парсера с помощью createObject:

    this.javaSettings = { loadPaths: ["C:\path\to\univocity-parsers-1.5.6.jar" ]};
    
  2. Если вы используете cfhttp для чтения файла csv, у вас есть объект запроса. В зависимости от вашей конечной цели это может быть более подходящий подход.

    filePath = "c:\path\to\yourFile.csv";
    settings = createObject("java", "com.univocity.parsers.csv.CsvParserSettings").init();
    settings.getFormat().setLineSeparator(chr(13)& chr(10));
    settings.getFormat().setQuoteEscape("\");
    settings.setParseUnescapedQuotes(true); // THIS IS IMPORTANT FOR YOU
    parser = createObject("java", "com.univocity.parsers.csv.CsvParser").init(settings);
    reader = createObject("java", "java.io.StringReader").init(fileRead(filePath));
    arrayOfLines = parser.parseAll(reader);
    
    // display results
    counter = 1;
    for (line in arrayOfLines) {
        writeOutput("<br>From line "& (counter++) & ":");
        for (element in line) {
           writeOutput("<br>"& element);
        }
    }
    
person Jeronimo Backes    schedule 09.06.2015
comment
StackTrace: coldfusion.tagext.net.HttpTag $ InvalidColumnsException: неправильное количество столбцов в строке. по адресу coldfusion.tagext.net.HttpTag.connHelper (HttpTag.java:1149) по адресу coldfusion.tagext.net.HttpTag.doEndTag (HttpTag.java:1219) по адресу cfmfhttp2ecfm308364137.runPage (C: \ inetpot: \ inetpub 1) в coldfusion.runtime.CfJspPage.invoke (CfJspPage.java:244) в coldfusion.tagext.lang.IncludeTag.doStartTag (IncludeTag.java:446) в coldfusion.filter.CfincludeFilter.invoke (Cf.javaFilter.invoke (Cf.javaFilter.invoke) в coldfusion.filter.IpFilter.invoke (IpFilter.java:64) в coldfusion.filter.ApplicationFilter.invoke (ApplicationFilter.java:430) в coldfusion.filter.RequestMonitorFilter.invoke (RequestMonitorFilter.filter.java:48) .invoke (MonitoringFilter.java:40) в coldfusion.filter.PathFilter.invoke (PathFilter.java:112) в coldfusion.filter.LicenseFilter.invoke (LicenseFilter.java:30) в coldfusion.filter.ExceptionFilter.invoke. java: 94) в coldfusion.filter.ClientScopePersistenceFilter.invoke (ClientScopePersistenceFilter.java:28) в coldfusion.filter.BrowserFilter.invoke (Br owserFilter.java:38) в coldfusion.filter.NoCacheFilter.invoke (NoCacheFilter.java:58) в coldfusion.filter.GlobalsFilter.invoke (GlobalsFilter.java:38) в coldfusion.filter.DatasourceFilter.jource:22 ) в coldfusion.filter.CachingFilter.invoke (CachingFilter.java:62) в coldfusion.CfmServlet.service (CfmServlet.java:219) в coldfusion.bootstrap.BootstrapServlet.service (BootstrapServlet.catalgina.ap) .core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:303) по адресу org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:208) по адресу coldfusion.monitor.event.MonitoringServletFilter (мониторинг). coldfusion.bootstrap.BootstrapFilter.doFilter (BootstrapFilter.java:46) по адресу org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:241) по адресу org.apache.catalina.core.Application.FilterChain.Core.Application.FilterChain: 208) на org.apache.catalina.core. StandardWrapperValve.invoke (StandardWrapperValve.java:220) в org.apache.catalina.core.StandardContextValve.invoke (StandardContextValve.java:122) в org.apache.catalina.authenticator.AuthenticatorBase.invoke.java:AuthenticatorBase.invoke. .apache.catalina.core.StandardHostValve.invoke (StandardHostValve.java:171) в org.apache.catalina.valves.ErrorReportValve.invoke (ErrorReportValve.java:102) в org.apache.catalina.valves. AccessLogValve.invoke (AccessLogValve.java:950) на org.apache.catalina.core.StandardEngineValve.invoke (StandardEngineValve.java:116) на org.apache.catalina.connector.CoyoteAdapter.service (Coyote4Adapter.service (Coyote4Adapter) .apache.coyote.ajp.AjpProcessor.process (AjpProcessor.java:199) в org.apache.coyote.AbstractProtocol $ AbstractConnectionHandler.process (AbstractProtocol.java:607) в org.apache.tomcat.util.net.JcketIoEndpoint $ Socket .run (JIoEndpoint.java:314) в java.util.concurrent.ThreadPoolExecutor.runWorker (ThreadPoolExecutor.java:1145) в java.util.concurrent.ThreadPoolExecutor $ Worker.run (ThreadPoolExecutor. tomcat.util.threads.TaskThread $ WrappingRunnable.run (TaskThread.java:61) в java.lang.Thread.run (Thread.java:722) - person Leigh; 10.12.2015